ElevenLabs 虚拟形象:一张照片 + 一段台词,「会说话的 AI 真人」视频一键生成 ⚡

做声音起家的 ElevenLabs,在 ElevenCreative 里推出了「Avatars(虚拟形象)」。上传照片生成你的专属 AI 人物,只要写好台词,那个人物就会对好口型把视频一次性说出来。语音和对口型在同一个界面里一起生成,相比 HeyGen、Synthesia,「语音优先的整合工作流」正是它的强项。本文用初学者也能懂的方式,讲清它怎么用在短视频、UGC 广告、教育视频上,以及和 HeyGen、Synthesia 到底有什么不同。

"只上传一张照片,写好台词,那个人就真的开口说话了?"

 

一直以来,ElevenLabs 都是一家做"声音"的公司。
而这一次,它连"脸"也开始做了。
只要输入台词,会说话的 AI 真人视频就一次性生成,这就是 Avatars(虚拟形象)

大家好,这里是 Sonetho。⚡

 

已经快三年每天都在"调教"ElevenLabs 的我们,
今天带来的是 2026 年 6 月中旬官方刚发布的热乎新功能,Avatars(虚拟形象)

 

先用一句话说明白。
从现在起,在 ElevenLabs 里面也能整段做出"会说话的真人视频"了。
上传照片生成 AI 人物,写好台词,挑一个声音,
→ 那个人物就会连口型都对得严丝合缝地把视频说出来。

 

如果你听说过 HeyGen、Synthesia(会说话的 AI 虚拟形象视频服务),那就好理解了。
如今"声音之王"ElevenLabs 也杀进了这个领域。
今天我们就用初学者也能听懂的方式,把它是什么、怎么用、和现有服务有什么不同,从头到尾彻底扒一遍!

 

👉 开始体验 ElevenLabs 虚拟形象 →

 


🤔 一家做声音的公司,怎么突然做起"脸"来了?

先把名词讲清楚。

 

💡 一看就懂的名词框

  • Avatars(虚拟形象) = 用照片或文字做出来的"专属 AI 人物"。做好一次,就能在多个视频里反复使用。

  • 口播头像(talking-head) = 一个人对着镜头说话,在 YouTube、广告里很常见的那种"会说话的脸"视频。

  • 对口型(lip-sync) = 让口型自然地跟着声音对上的技术。

  • ElevenCreative = ElevenLabs 的内容创作空间。这次的虚拟形象,就放进了里面的"Image & Video(图像与视频)"菜单里。

 

不管怎么说,ElevenLabs 真正的杀手锏始终是"声音"
在 TTS(把文字变成真人声音的技术)和声音克隆(复制声音)上,它都是世界顶级水平。

 

可是做视频的人,一直被这样的麻烦困扰着。

  • 先在 ElevenLabs 里生成声音

  • 再把那个音频文件重新上传到别的服务(比如 HeyGen)

  • 在那边对口型……这种来回搬文件的衔接(把文件挪来挪去的活儿)实在太繁琐了。

 

虚拟形象把这些步骤放在一个地方一次性搞定。
声音、脸、对口型 → 全在 ElevenLabs 里一次完成。
与其说是做声音的公司去做了脸,不如说它的目标是"把从声音到视频的流程无缝打通"

 


⚙️ 工作原理:"导出音频"这一步整个消失了

这次虚拟形象的官方发布,有一句关键描述。
那就是 "prompt island(提示界面)里直接内置了 Text to Speech"

 

听着挺玄乎,意思其实很简单。

 

💡 说人话就是

  • 在你输入台词的那个地方(prompt island = 写指令的输入面板),生成声音的功能也一起内置在里面

  • 所以声音(语音)和对好口型的视频(lip-sync)会"一次性同时"生成

  • 根本不需要单独把音频文件导出(export)再挪到别处。

 

还有一点。
ElevenLabs 自己手里就握着"生成声音"这一块,这是它的强项所在。

 

生成声音的技术(voice model)和对口型的技术(lip-sync model)在同一个屋檐下一起运转
所以官方发布说,相比从外部拿来音频再对口型的做法,它的同步(口型和声音的时间点)对得更准
也就是那种"口型在念'你好'、声音却出来'再见'"的微妙错位会减少。

 

📌 编辑备注:对口型模型由"我"来挑 ⚡
ElevenLabs 把多个优秀的对口型技术汇集到一起,
在生成界面里让你直接挑选想要的对口型模型(也提供默认值)。
关键是每个模型的品质、最高分辨率、"每秒积分"都不一样。下面这张实测表里就整理好了。

 


🎬 跟着做:从照片到会说话的视频,一步一步来

实际使用流程比想象的简单。
按官方说明整理一下,就是这样。

 

第 1 步:创建虚拟形象(你的专属 AI 人物)
在 ElevenCreative 的 Image & Video 菜单里,点 Avatar 区域的"New(新建)"
然后用下面两种方式之一来生成人物。

  • 上传照片:上传同一个人物的多个角度照片 3~5 张,结果会更稳定。
    (只上传 1 张照片,结果可能时好时坏。)

  • 用文字描述:没有照片也行,用文本提示词描述"这样一个人"也能生成。

顺便说,不只是真人,角色、动物也能做成虚拟形象。(不是人也 OK)

 

第 2 步:起名字并指定默认声音
给虚拟形象起个名字,需要的话设定一个默认声音(default voice),然后用 "Create Avatar" 确定人物。
每个虚拟形象都会预先配上一个默认声音,但随时都能更换

 

第 3 步:制作会说话的视频
选中做好的虚拟形象,点 "Create Lip Sync(创建对口型)"
接着 ① 选风格 → ② 选声音(声音库里的声音,或自己克隆的声音)→ ③ 输入台词 → ④ 用 "Generate speech" 生成语音并试听。

 

第 4 步:生成
需要的话,再稍微加一点定调视频氛围的视觉提示词,然后点 "Generate" 就完成了。
对好口型的视频会连同声音一起生成出来。

 

💡 积分,先看清楚再点

  • 虚拟形象视频沿用现有的 "Image & Video" 积分体系

  • 费用会根据所选的对口型模型 · 输出分辨率 · 视频时长而变化。

  • 好在点生成按钮之前,界面上会预先显示预估积分。看清楚再点!

  • (分辨率支持 480p、720p、1080p,不过在某些标准下,比起分辨率和画面比例,"视频时长"对积分的影响更大。)

 

所以我们从 2026 年 6 月的真实模型选择界面里,原样搬来了各对口型模型的每秒积分。(数字越低越便宜)

对口型模型

每秒积分

特点(官方说明)

Veed Lipsync

41

快速又便宜的视频对口型

Sync Lipsync 2 Pro

661

适用于实拍、动画、AI 内容的录音棚级品质

Creatify Aurora

848

从图像出发的最高品质,带引导的对口型

Sync 3

1,053

视觉智能,专业级品质

HeyGen Avatar 4 (全新)

1,212

富有表现力的动作,最高 1080p

Veed Fabric

1,212

任何图像都逼真,最高 720p

OmniHuman 1.5

1,267

逼真的对口型,支持非人类面孔

⚠️ "每秒"这个坑,费用会随时长成正比往上飙

  • 因为按每秒积分计费,视频越长费用就蹭蹭往上涨

  • 例)用 Sync 3(1,053/秒)30 秒视频 → 约 31,600 积分1 分钟的话约 63,000 积分

  • 以 Creator 套餐(每月约 12 万积分)来算,也就是 30 秒的 3~4 条左右。说实话并不宽裕。

  • 相反,像 Veed Lipsync(41/秒)这种便宜的模型,30 秒约 1,230 积分,同样的积分能多产出几十倍
    这是品质↔成本的取舍。

  • 另外,虚拟形象(图像)的生成积分是单算的。上面的每秒积分只是"会说话的视频(对口型)"那部分的费用。

※ 每秒积分为 2026 年 6 月模型选择界面的实测值。模型与价格政策会随时变动,所以请务必在生成前确认界面上显示的预估积分

 

👉 亲手做一个虚拟形象试试 →

 


🪪 做一次就能一直用:持久身份 & "风格"变体

虚拟形象真正的强项是"复用"

 

做好一次的虚拟形象,会拥有一个"固定身份(persistent identity)"
说白了,就是可以让你做好的那个人物,以同一张脸持续出现在多个视频里
不会出现每个视频里人脸都微妙变样的事故。

 

在此基础上,还加了"Styles(风格)"功能。
保持同一人物核心身份不变的前提下,可以做出改变以下要素的变体。

  • 镜头角度(正面 / 侧面等)

  • 服装(正装 / 休闲等)

  • 背景灯光

 

比如先做好一个"我们品牌的讲解员",
再用同一个人产出办公室背景正装版、户外休闲版、特写版。
这个虚拟形象和它的风格不论生成多少次都会一直保留,可以在多个项目里反复利用。

 

📌 这为什么重要 ⚡
无论是 YouTube 频道还是广告,只有"同一张脸"持续出现,观众才会记住品牌。
每次都重新拍,或每次都换不同的 AI 人物,一致性就崩了。
虚拟形象让你拥有一个"做一次就能用一辈子"的出镜者。

 


🔁 用 Flows "批量生产":一次性产出整批 UGC 广告

从这里开始稍微进阶一些,但对营销人、UGC 制作者来说简直是宝藏。

 

💡 只讲两个名词

  • Flows(流程) = 像自动传送带一样把任务一环扣一环连续执行的自动化功能。

  • UGC 广告 = "像用户自己拍的"那种测评风格广告。如今在 Instagram、抖音、短视频上最吃香的格式。

 

这次 Flows 里新增了 "Avatar 节点(虚拟形象模块)"
把它接进去,就能把虚拟形象视频的生成接入自动化流水线。

 

把官方示例流程原样搬过来,就是这样。

  • ① 输入产品简介(简单的产品说明)

  • ② AI 生成台词

  • ③ 生成配音(旁白语音)

  • ④ 生成虚拟形象念这段台词的视频

 

然后把这套流程按产品 · 按语言 · 按开场钩子一口气批量(batch)执行
这里的"钩子(hook)"指的是视频开头抓住前 3 秒的开场话术

 

比如只把钩子换成 5 种("不知道这个就亏大了""只看 3 秒就好"等),就能一次产出 5 个广告变体。
对于像短视频、Reels 广告那样"哪种开场更吃香"要跑多个版本测试的工作来说,简直绝配。
因为不用每次都重新拍了。

 


⚖️ 和 HeyGen、Synthesia 有什么不同?(实话对比)

"都已经有 HeyGen、Synthesia 了,为什么还要用 ElevenLabs?"
这问题问得理所当然。我只挑重点说。(价格以官方及对比资料为准,会因促销和付费周期而变化。)

 

服务

强项 / 计费方式

什么时候用它好

ElevenLabs 虚拟形象

声音是本行 → 语音+脸在一个地方搞定。按积分计费

把音质放第一位、需要多语言配音时

Synthesia

"分钟"计费,预算好算。形象真实感口碑不错

企业培训、内部视频

HeyGen

按积分计费。把现有视频做多语言翻译很强

营销、海外内容翻译

 

把核心差异用一句话概括,就是这样。

 

ElevenLabs 走的是"语音优先的整合"。
一家本来就拥有世界顶级声音的公司,给这声音配上脸(对口型),让你在一个界面里一次性产出。
不用把音频挪来挪去,而且语音和口型的同步更精准,这就是它的强项。

 

价格上稍微给点感觉。(以 2026 年 6 月为准)

  • HeyGen:按积分计费。以代表性的虚拟形象功能(Avatar IV)来算,每分钟约 $1(Creator 套餐)。

  • Synthesia:按分钟订阅。换算成年付,每分钟约 $1.8~2.1

  • ElevenLabs 虚拟形象:根据所选对口型模型不同,每分钟约 $0.45(便宜)~$13.8(高端),跨度很大(参见上面的每秒积分表)。

 

💰 那到底哪个更省钱?第 2 篇里算到底了
说实话,大量做高清的话,专用平台(HeyGen、Synthesia)按分钟可能更便宜;
偶尔做、少量做、想要整合工作流的话,ElevenLabs 更划算。
我们用每分钟实际成本表,把那个"一个月做几分钟"决定的盈亏平衡点彻底算了个透。
[虚拟形象成本大对决] 直接订阅 vs ElevenLabs,到底谁更便宜,点这里看 →

 

🚨 实话实说,还有这些不确定的地方
各模型一次能生成的最大视频时长,以及虚拟形象(图像)生成本身的积分,会随模型和设置不同而变化,并没有明确公开一个固定数字。
(最高分辨率也因模型而异。像上表那样,有的模型只到 720p,有的到 1080p,混在一起。)
不过准确费用会在生成前的界面上以预估积分显示,看着它点就行。
另外发布时点暂未提供 API(外部对接),后续会陆续推出。

 


🙋 那么,这东西适合谁?

在我们看来,对下面这些人尤其强大。

 

  • 短视频、Reels 创作者:不用露脸,用一个一致的"AI 出镜者"来运营频道。

  • UGC 广告、效果营销人:只换钩子就能批量生产广告变体,A/B 测试很轻松。

  • 课程、教育内容制作者:用"同一位讲师"做系列课程,并按科目、语言扩展。

  • 品牌、社媒运营者:不用每次拍摄,也能持续产出社交内容。

  • 需要多语言讲解视频的人:结合 ElevenLabs 的多语言语音,制作本地化视频。

 

反过来,对于想完全免费产出视频的人来说,目前还有点遗憾。
因为虚拟形象(视频生成)只能在付费套餐里用(免费套餐无法生成视频)。
好在 ElevenCreative 的所有付费套餐目前都能使用。

 


❓ 常见问题

 

Q. 只要有一张照片,就能马上做出虚拟形象吗?
从技术上讲,用 1 张照片也能做,没有照片、用文字(文本提示词)描述也能做。
不过官方建议用同一人物的多个角度照片 3~5 张
只用 1 张的话,每个视频里的脸可能不一致。想要稳定的结果,就多上传几张。

 

Q. 用免费套餐也能做会说话的虚拟形象视频吗?
不行。虚拟形象的视频生成只能在付费套餐里做(免费套餐限制视频生成)。
不过 ElevenCreative 的所有付费套餐都能用,费用会从现有的 "Image & Video" 积分里扣除。
具体随所选模型、分辨率、视频时长而变化,而且生成前界面会预先显示预估积分,看着它决定就好。

 

Q. 有什么理由不用 HeyGen、Synthesia,而用 ElevenLabs 虚拟形象呢?
最大的差别在"声音"
ElevenLabs 本行就是 TTS 和声音克隆,所以声音品质和多语言语音都很强。
再给它配上脸(对口型),不用把音频挪到别的服务、在一个地方一次性做出视频,这就是核心强项。
如果你把音质放第一位,或者经常做多语言视频,它就很有吸引力。
(反过来,如果按分钟管理预算很重要,那 Synthesia 好;如果主要目的是把现有视频做多语言翻译,那 HeyGen 也是不错的选择。)

 

Q. 能不能让每个视频里的脸不变,一直用同一个人物?
能,这正是虚拟形象的核心。
做好一次的虚拟形象会保持固定身份,无论生成多少次,都会以同一张脸出现在多个视频里。
还能用 "Styles(风格)" 功能做出只改角度、服装、背景的变体,做到保持身份不变的同时,呈现多样的演绎。

 


🎁 写在最后

把今天的重点再梳理一遍。

 

  • Avatars = 用照片、文字做出来的 AI 人物,能变成对好口型说话的视频的新功能。

  • 声音和对口型在一个界面里一次完成 → 省去挪音频的功夫,同步更精准。

  • 做好一次的虚拟形象可持续复用,用 Styles 做角度、服装、背景的变体。

  • Flows 的 Avatar 节点,按钩子、按语言批量生产 UGC 广告、短视频。

  • 价格、时长、自动选用的模型等部分数值未公开 → 请确认生成前显示的积分

 

"声音之王"如今连"脸"也握在手里了。
从声音到视频一气呵成的时代,就此拉开了序幕。

 

如果你正在用付费套餐,今天就上传几张照片,
做一个属于你自己的 AI 出镜者吧。
一行台词变成"会说话的视频",亲手做一次,1 分钟就能切身感受到!

 

👉 开始体验 ElevenLabs 虚拟形象 →

 

下一篇文章,我们再带来更实用的干货。
以上就是 Sonetho。⚡