ElevenLabs 虚拟形象：一张照片 + 一段台词，「会说话的 AI 真人」视频一键生成 ⚡

Q: 只要有一张照片，就能马上做出虚拟形象吗？

从技术上讲，用 1 张照片也能做，没有照片、 用文字（文本提示词）描述 也能做。 不过官方建议用 同一人物的多个角度照片 3~5 张 。 只用 1 张的话，每个视频里的脸可能不一致。想要稳定的结果，就多上传几张。

Q: 用免费套餐也能做会说话的虚拟形象视频吗？

不行。虚拟形象的 视频生成 只能在 付费套餐 里做（免费套餐限制视频生成）。 不过 ElevenCreative 的 所有付费套餐 都能用，费用会从现有的 "Image & Video" 积分里扣除。 具体随所选模型、分辨率、视频时长而变化，而且 生成前界面会预先显示预估积分 ，看着它决定就好。

Q: 有什么理由不用 HeyGen、Synthesia，而用 ElevenLabs 虚拟形象呢？

最大的差别在 "声音" 。 ElevenLabs 本行就是 TTS 和声音克隆，所以声音品质和多语言语音都很强。 再给它配上脸（对口型）， 不用把音频挪到别的服务、在一个地方一次性 做出视频，这就是核心强项。 如果你把音质放第一位，或者经常做多语言视频，它就很有吸引力。 （反过来，如果按分钟管理预算很重要，那 Synthesia 好；如果主要目的是把现有视频做多语言翻译，那 HeyGen 也是不错的选择。）

Q: 能不能让每个视频里的脸不变，一直用同一个人物？

能，这正是虚拟形象的核心。 做好一次的虚拟形象会保持 固定身份 ，无论生成多少次，都会以 同一张脸 出现在多个视频里。 还能用 "Styles（风格）" 功能做出只改角度、服装、背景的变体，做到保持身份不变的同时，呈现多样的演绎。

"只上传一张照片，写好台词，那个人就真的开口说话了？"

一直以来，ElevenLabs 都是一家做"声音"的公司。
而这一次，它连"脸"也开始做了。
只要输入台词，会说话的 AI 真人视频就一次性生成，这就是 Avatars（虚拟形象）。

大家好，这里是 Sonetho。⚡

已经快三年每天都在"调教"ElevenLabs 的我们，
今天带来的是 2026 年 6 月中旬官方刚发布的热乎新功能，Avatars（虚拟形象）。

先用一句话说明白。
从现在起，在 ElevenLabs 里面也能整段做出"会说话的真人视频"了。
上传照片生成 AI 人物，写好台词，挑一个声音，
→ 那个人物就会连口型都对得严丝合缝地把视频说出来。

如果你听说过 HeyGen、Synthesia（会说话的 AI 虚拟形象视频服务），那就好理解了。
如今"声音之王"ElevenLabs 也杀进了这个领域。
今天我们就用初学者也能听懂的方式，把它是什么、怎么用、和现有服务有什么不同，从头到尾彻底扒一遍！

👉 开始体验 ElevenLabs 虚拟形象 →

🤔 一家做声音的公司，怎么突然做起"脸"来了？

先把名词讲清楚。

💡 一看就懂的名词框

Avatars（虚拟形象） = 用照片或文字做出来的"专属 AI 人物"。做好一次，就能在多个视频里反复使用。
口播头像（talking-head） = 一个人对着镜头说话，在 YouTube、广告里很常见的那种"会说话的脸"视频。
对口型（lip-sync） = 让口型自然地跟着声音对上的技术。
ElevenCreative = ElevenLabs 的内容创作空间。这次的虚拟形象，就放进了里面的"Image & Video（图像与视频）"菜单里。

不管怎么说，ElevenLabs 真正的杀手锏始终是"声音"。
在 TTS（把文字变成真人声音的技术）和声音克隆（复制声音）上，它都是世界顶级水平。

可是做视频的人，一直被这样的麻烦困扰着。

先在 ElevenLabs 里生成声音，
再把那个音频文件重新上传到别的服务（比如 HeyGen），
在那边对口型……这种来回搬文件的衔接（把文件挪来挪去的活儿）实在太繁琐了。

虚拟形象把这些步骤放在一个地方一次性搞定。
声音、脸、对口型 → 全在 ElevenLabs 里一次完成。
与其说是做声音的公司去做了脸，不如说它的目标是"把从声音到视频的流程无缝打通"。

⚙️ 工作原理："导出音频"这一步整个消失了

这次虚拟形象的官方发布，有一句关键描述。
那就是 "prompt island（提示界面）里直接内置了 Text to Speech"。

听着挺玄乎，意思其实很简单。

💡 说人话就是

在你输入台词的那个地方（prompt island = 写指令的输入面板），生成声音的功能也一起内置在里面。
所以声音（语音）和对好口型的视频（lip-sync）会"一次性同时"生成。
根本不需要单独把音频文件导出（export）再挪到别处。

还有一点。
ElevenLabs 自己手里就握着"生成声音"这一块，这是它的强项所在。

生成声音的技术（voice model）和对口型的技术（lip-sync model）在同一个屋檐下一起运转，
所以官方发布说，相比从外部拿来音频再对口型的做法，它的同步（口型和声音的时间点）对得更准。
也就是那种"口型在念'你好'、声音却出来'再见'"的微妙错位会减少。

📌 编辑备注：对口型模型由"我"来挑 ⚡
ElevenLabs 把多个优秀的对口型技术汇集到一起，
在生成界面里让你直接挑选想要的对口型模型（也提供默认值）。
关键是每个模型的品质、最高分辨率、"每秒积分"都不一样。下面这张实测表里就整理好了。

🎬 跟着做：从照片到会说话的视频，一步一步来

实际使用流程比想象的简单。
按官方说明整理一下，就是这样。

第 1 步：创建虚拟形象（你的专属 AI 人物）
在 ElevenCreative 的 Image & Video 菜单里，点 Avatar 区域的"New（新建）"。
然后用下面两种方式之一来生成人物。

上传照片：上传同一个人物的多个角度照片 3~5 张，结果会更稳定。
（只上传 1 张照片，结果可能时好时坏。）
用文字描述：没有照片也行，用文本提示词描述"这样一个人"也能生成。

顺便说，不只是真人，角色、动物也能做成虚拟形象。（不是人也 OK）

第 2 步：起名字并指定默认声音
给虚拟形象起个名字，需要的话设定一个默认声音（default voice），然后用 "Create Avatar" 确定人物。
每个虚拟形象都会预先配上一个默认声音，但随时都能更换。

第 3 步：制作会说话的视频
选中做好的虚拟形象，点 "Create Lip Sync（创建对口型）"。
接着 ① 选风格 → ② 选声音（声音库里的声音，或自己克隆的声音）→ ③ 输入台词 → ④ 用 "Generate speech" 生成语音并试听。

第 4 步：生成
需要的话，再稍微加一点定调视频氛围的视觉提示词，然后点 "Generate" 就完成了。
对好口型的视频会连同声音一起生成出来。

💡 积分，先看清楚再点

虚拟形象视频沿用现有的 "Image & Video" 积分体系。
费用会根据所选的对口型模型 · 输出分辨率 · 视频时长而变化。
好在点生成按钮之前，界面上会预先显示预估积分。看清楚再点！
（分辨率支持 480p、720p、1080p，不过在某些标准下，比起分辨率和画面比例，"视频时长"对积分的影响更大。）

所以我们从 2026 年 6 月的真实模型选择界面里，原样搬来了各对口型模型的每秒积分。（数字越低越便宜）

对口型模型	每秒积分	特点（官方说明）
Veed Lipsync	41	快速又便宜的视频对口型
Sync Lipsync 2 Pro	661	适用于实拍、动画、AI 内容的录音棚级品质
Creatify Aurora	848	从图像出发的最高品质，带引导的对口型
Sync 3	1,053	视觉智能，专业级品质
HeyGen Avatar 4 （全新）	1,212	富有表现力的动作，最高 1080p
Veed Fabric	1,212	任何图像都逼真，最高 720p
OmniHuman 1.5	1,267	逼真的对口型，支持非人类面孔

⚠️ "每秒"这个坑，费用会随时长成正比往上飙

因为按每秒积分计费，视频越长费用就蹭蹭往上涨。
例）用 Sync 3（1,053/秒）做 30 秒视频 → 约 31,600 积分。1 分钟的话约 63,000 积分。
以 Creator 套餐（每月约 12 万积分）来算，也就是 30 秒的 3~4 条左右。说实话并不宽裕。
相反，像 Veed Lipsync（41/秒）这种便宜的模型，30 秒约 1,230 积分，同样的积分能多产出几十倍。
这是品质↔成本的取舍。
另外，虚拟形象（图像）的生成积分是单算的。上面的每秒积分只是"会说话的视频（对口型）"那部分的费用。

※ 每秒积分为 2026 年 6 月模型选择界面的实测值。模型与价格政策会随时变动，所以请务必在生成前确认界面上显示的预估积分。

👉 亲手做一个虚拟形象试试 →

🪪 做一次就能一直用：持久身份 & "风格"变体

虚拟形象真正的强项是"复用"。

做好一次的虚拟形象，会拥有一个"固定身份（persistent identity）"。
说白了，就是可以让你做好的那个人物，以同一张脸持续出现在多个视频里。
不会出现每个视频里人脸都微妙变样的事故。

在此基础上，还加了"Styles（风格）"功能。
在保持同一人物核心身份不变的前提下，可以做出改变以下要素的变体。

镜头角度（正面 / 侧面等）
服装（正装 / 休闲等）
背景和灯光

比如先做好一个"我们品牌的讲解员"，
再用同一个人产出办公室背景正装版、户外休闲版、特写版。
这个虚拟形象和它的风格不论生成多少次都会一直保留，可以在多个项目里反复利用。

📌 这为什么重要 ⚡
无论是 YouTube 频道还是广告，只有"同一张脸"持续出现，观众才会记住品牌。
每次都重新拍，或每次都换不同的 AI 人物，一致性就崩了。
虚拟形象让你拥有一个"做一次就能用一辈子"的出镜者。

🔁 用 Flows "批量生产"：一次性产出整批 UGC 广告

从这里开始稍微进阶一些，但对营销人、UGC 制作者来说简直是宝藏。

💡 只讲两个名词

Flows（流程） = 像自动传送带一样把任务一环扣一环连续执行的自动化功能。
UGC 广告 = "像用户自己拍的"那种测评风格广告。如今在 Instagram、抖音、短视频上最吃香的格式。

这次 Flows 里新增了 "Avatar 节点（虚拟形象模块）"。
把它接进去，就能把虚拟形象视频的生成接入自动化流水线。

把官方示例流程原样搬过来，就是这样。

① 输入产品简介（简单的产品说明）
② AI 生成台词
③ 生成配音（旁白语音）
④ 生成虚拟形象念这段台词的视频

然后把这套流程按产品 · 按语言 · 按开场钩子一口气批量（batch）执行。
这里的"钩子（hook）"指的是视频开头抓住前 3 秒的开场话术。

比如只把钩子换成 5 种（"不知道这个就亏大了""只看 3 秒就好"等），就能一次产出 5 个广告变体。
对于像短视频、Reels 广告那样"哪种开场更吃香"要跑多个版本测试的工作来说，简直绝配。
因为不用每次都重新拍了。

⚖️ 和 HeyGen、Synthesia 有什么不同？（实话对比）

"都已经有 HeyGen、Synthesia 了，为什么还要用 ElevenLabs？"
这问题问得理所当然。我只挑重点说。（价格以官方及对比资料为准，会因促销和付费周期而变化。）

服务	强项 / 计费方式	什么时候用它好
ElevenLabs 虚拟形象	声音是本行 → 语音+脸在一个地方搞定。按积分计费	把音质放第一位、需要多语言配音时
Synthesia	按"分钟"计费，预算好算。形象真实感口碑不错	企业培训、内部视频
HeyGen	按积分计费。把现有视频做多语言翻译很强	营销、海外内容翻译

把核心差异用一句话概括，就是这样。

ElevenLabs 走的是"语音优先的整合"。
一家本来就拥有世界顶级声音的公司，给这声音配上脸（对口型），让你在一个界面里一次性产出。
不用把音频挪来挪去，而且语音和口型的同步更精准，这就是它的强项。

价格上稍微给点感觉。（以 2026 年 6 月为准）

HeyGen：按积分计费。以代表性的虚拟形象功能（Avatar IV）来算，每分钟约 $1（Creator 套餐）。
Synthesia：按分钟订阅。换算成年付，每分钟约 $1.8~2.1。
ElevenLabs 虚拟形象：根据所选对口型模型不同，每分钟约 $0.45（便宜）~$13.8（高端），跨度很大（参见上面的每秒积分表）。

💰 那到底哪个更省钱？第 2 篇里算到底了
说实话，大量做高清的话，专用平台（HeyGen、Synthesia）按分钟可能更便宜；
而偶尔做、少量做、想要整合工作流的话，ElevenLabs 更划算。
我们用每分钟实际成本表，把那个"一个月做几分钟"决定的盈亏平衡点彻底算了个透。
→ [虚拟形象成本大对决] 直接订阅 vs ElevenLabs，到底谁更便宜，点这里看 →

🚨 实话实说，还有这些不确定的地方
各模型一次能生成的最大视频时长，以及虚拟形象（图像）生成本身的积分，会随模型和设置不同而变化，并没有明确公开一个固定数字。
（最高分辨率也因模型而异。像上表那样，有的模型只到 720p，有的到 1080p，混在一起。）
不过准确费用会在生成前的界面上以预估积分显示，看着它点就行。
另外发布时点暂未提供 API（外部对接），后续会陆续推出。

🙋 那么，这东西适合谁？

在我们看来，对下面这些人尤其强大。

短视频、Reels 创作者：不用露脸，用一个一致的"AI 出镜者"来运营频道。
UGC 广告、效果营销人：只换钩子就能批量生产广告变体，A/B 测试很轻松。
课程、教育内容制作者：用"同一位讲师"做系列课程，并按科目、语言扩展。
品牌、社媒运营者：不用每次拍摄，也能持续产出社交内容。
需要多语言讲解视频的人：结合 ElevenLabs 的多语言语音，制作本地化视频。

反过来，对于想完全免费产出视频的人来说，目前还有点遗憾。
因为虚拟形象（视频生成）只能在付费套餐里用（免费套餐无法生成视频）。
好在 ElevenCreative 的所有付费套餐目前都能使用。

❓ 常见问题

Q. 只要有一张照片，就能马上做出虚拟形象吗？
从技术上讲，用 1 张照片也能做，没有照片、用文字（文本提示词）描述也能做。
不过官方建议用同一人物的多个角度照片 3~5 张。
只用 1 张的话，每个视频里的脸可能不一致。想要稳定的结果，就多上传几张。

Q. 用免费套餐也能做会说话的虚拟形象视频吗？
不行。虚拟形象的视频生成只能在付费套餐里做（免费套餐限制视频生成）。
不过 ElevenCreative 的所有付费套餐都能用，费用会从现有的 "Image & Video" 积分里扣除。
具体随所选模型、分辨率、视频时长而变化，而且生成前界面会预先显示预估积分，看着它决定就好。

Q. 有什么理由不用 HeyGen、Synthesia，而用 ElevenLabs 虚拟形象呢？
最大的差别在"声音"。
ElevenLabs 本行就是 TTS 和声音克隆，所以声音品质和多语言语音都很强。
再给它配上脸（对口型），不用把音频挪到别的服务、在一个地方一次性做出视频，这就是核心强项。
如果你把音质放第一位，或者经常做多语言视频，它就很有吸引力。
（反过来，如果按分钟管理预算很重要，那 Synthesia 好；如果主要目的是把现有视频做多语言翻译，那 HeyGen 也是不错的选择。）

Q. 能不能让每个视频里的脸不变，一直用同一个人物？
能，这正是虚拟形象的核心。
做好一次的虚拟形象会保持固定身份，无论生成多少次，都会以同一张脸出现在多个视频里。
还能用 "Styles（风格）" 功能做出只改角度、服装、背景的变体，做到保持身份不变的同时，呈现多样的演绎。

🎁 写在最后

把今天的重点再梳理一遍。

Avatars = 用照片、文字做出来的 AI 人物，能变成对好口型说话的视频的新功能。
声音和对口型在一个界面里一次完成 → 省去挪音频的功夫，同步更精准。
做好一次的虚拟形象可持续复用，用 Styles 做角度、服装、背景的变体。
用 Flows 的 Avatar 节点，按钩子、按语言批量生产 UGC 广告、短视频。
价格、时长、自动选用的模型等部分数值未公开 → 请确认生成前显示的积分。

"声音之王"如今连"脸"也握在手里了。
从声音到视频一气呵成的时代，就此拉开了序幕。

如果你正在用付费套餐，今天就上传几张照片，
做一个属于你自己的 AI 出镜者吧。
一行台词变成"会说话的视频"，亲手做一次，1 分钟就能切身感受到！

👉 开始体验 ElevenLabs 虚拟形象 →

下一篇文章，我们再带来更实用的干货。
以上就是 Sonetho。⚡