"明明是同一份文案,怎么昨天生成的和今天生成的语感完全不同?"
在使用 ElevenLabs 时,这几乎是每位创作者都会遇到的困惑。
事实上,这 80% 的差异源于“Prompt(提示词/输入文本)的撰写方式”。
你好,这里是 Sonetho ⚡
在 ElevenLabs 中,“Prompt(提示词)”并不是什么高深莫测的技术术语,它指的就是你输入进去、想要转换成语音的那些文字本身。
但关键在于,这些文字绝非简单的“字符堆砌”。
同样的“这真是太棒了”这句话,
直接输入,它只会平铺直叙地念出来;
但如果在前面加一个情感标签,它就能瞬间演绎出那种“惊喜万分”的语调。
哪怕是一个数字、一个句点、一个连字符,都能让输出结果产生天差地别。
我们几乎每天都在调优 ElevenLabs 的各项模型,持续了近三年。
今天,我们决定专门深挖一下“Prompt 撰写技巧”。
涵盖 v3 音频标签、发音校准、断句控制,以及可以直接复制粘贴的实战模板,请务必看到最后!
📌 首先:Prompt 的用法取决于所选的“模型”
在进入正题前,我们要明确一点。
接下来将要介绍的“音频标签(audio tag)”——也就是像 [excited]、[laughs] 这样放在方括号里的指令,仅在 Eleven v3 模型中有效。
如果在 v2 (Multilingual v2) 中使用这些标签会怎样呢?
模型不会将其转化为“表演”,而是直接把标签当作普通文本读出来(标签可能会被朗读,或者被直接忽略)。😅
(我们曾对比过 v2 与 v3 的表现,感兴趣的话可以在 Eleven v3 与 v2 中文表现对比 中收听 9 个测试片段。)
一句话总结
• 想要情感·音效标签 → 选用 v3
• 长内容 + 音色一致性至关重要 → 选用 v2(避免 v3 在不同段落间音色略有波动的特点)
• 发音校准·断句(连字符) → v2 与 v3 通用
想深入了解各模型优缺点的话,推荐阅读 资深用户的 v2 vs v3 使用心得。
🎭 1. v3 音频标签全总结(情感 · 音效)
音频标签是在方括号 [ ] 内用英文标注“该如何说话”的指令。
官方指南通常建议标签会影响“后续文本的演绎效果”,
根据我们的经验,放在句子前面通常会定下整句话的情感基调,
而插入句子中间则常用于触发特定效果(如笑声、叹气等)。
(这不是死规则,但这样用通常最自然。)
请记住两点要旨:
标签需使用“英文”书写。(相比中文标签 [兴奋],使用英文 [excited] 的效果要好得多)
标签本身不会被读出来。 它只是表演指令,AI 不会把它念成“衣克塞提德”。
(仅限 v3 模型。)
① 情感语气标签(放在句首效果最佳)
标签 | 含义 / 效果 | 适用场景 |
|---|---|---|
[excited] | 兴奋、激动 | 活动播报、新品发布 |
[sad] | 低沉、悲伤 | 情感叙事、故事朗读 |
[angry] | 愤怒、激昂 | 角色台词、戏剧性场景 |
[whispers] | 耳语、轻声 | 秘密分享、ASMR、紧张氛围 |
[sarcastic] | 讽刺、阴阳怪气 | 幽默内容、角色性格 |
[curious] | 好奇、询问 | 提问式旁白 |
[nervous] | 紧张、颤抖 | 紧急局势描述 |
[calm] | 冷静、平稳 | 冥想引导、教程说明 |
实战输入示例 (v3):
[excited] 各位,我们的新产品终于发布了!
[whispers] 其实呢,我们专门准备了今天限时的特别折扣。
👉 第一句语调向上提升,第二句则瞬间压低声音如耳语般诉说。
这种在同一段脚本中切换语态的能力,正是 v3 标签的精髓所在。
② 音效(非语言)标签(放在句子中间)
这不仅仅是“语气”,而是真实的音效。
它能实时生成笑声、叹气、咳嗽等“非语言类声音”。
标签 | 声音效果 | 建议位置 |
|---|---|---|
[laughs] | 大笑 | 句中或句尾 |
[chuckles] | 轻笑、嗤笑 | 句中或句尾 |
[sighs] | 叹气 | 句首或句中 |
[gasps] | 吸气、惊叹声 | 句首 |
[clears throat] | 清嗓子 | 句首 |
[exhales] | 呼气声 | 句中或句尾 |
实战输入示例 (v3):
啊,又把这事给忘了。[sighs] 看来得重新来一遍了。
所以昨天我做了什么呢…… [laughs] 我犯了一个天大的错误。
📌 小贴士:标签贵在“适度” ⚡
虽然你可以组合使用多个标签,但如果一句话里堆砌过多,可能会导致语调不稳定(如语速忽快忽慢、产生杂音)或被模型直接忽略。
我们的结论是:默认一句话加一个标签,只在最关键的地方画龙点睛。越简洁,效果往往越自然。
🔤 2. 发音校准:处理专有名词、英文与数字
即便提示词写得再好,如果 AI 把“ChatGPT”念成奇怪的音,那也无济于事。😭
发音问题与语气情感是完全不同的领域,处理方法也不同。
解决发音的方法主要有三种:
① 同音字替换(最简单、即时修复)
直接输入根据发音改写的汉字或拼音。例如:
API → 艾-皮-爱
2026年 → 二零二六 年(当 AI 对数字读取不准确时)
如果是只需用一次的脚本,这是最快的方法。
② 使用连字符(-)拆解发音
当两个字连在一起读起来怪异时(例如把“七-十一”读成连读),中间加上连字符可以强制停顿,让发音更清晰。
七-十一 / 查特-GPT / 艾-皮-爱
连字符不仅能拆分发音,还能制造极短的停顿。
③ 发音词典(Pronunciation Dictionary,长期必备)
如果同样的专有名词在每期视频中都会出现,每次都手动修改太麻烦了。
这时,将该词加入“发音词典”中,以后直接输入原文,AI 就会自动按你设定的正确读法转换。
🚨 常见失误 (请注意节省积分!)
在词典的 Alias(别名)一栏,可以填入能获得正确中文发音的文字。但为了确保读取稳定,针对英文缩写,填入音标或同音英文单词效果更好。例如:KPI → Key Pee Eye。
※ 易混淆点:发音词典 Alias 中不需要加连字符。直接空格分开英文即可。
连字符(-)不是词典工具,而是文本输入框中用于断句和拆解发音的利器(详见下文第 3 点)。
制作发音词典的方法,我们在 ElevenLabs 发音校准完美指南 中有详细截图,1 分钟即可学会。
如果发音总是出问题,请务必先阅读那篇指南!
顺便一提,v3 模型比 v2 处理生僻数字·符号模式(如 "$22" → "二十二美元")更加灵活。
但它在处理同一个英文词时,有时会混用美式和英式口音,如果对发音一致性要求极高,建议通过发音词典锁定读法。
⏸️ 3. 断句与呼吸控制:标点符号与连字符的魔法
在提示词中,被忽视但极其强大的工具其实是标点符号。
AI 会根据你留下的符号,决定“哪里该停、停顿多久、以什么样的语调结束”。
① 符号对应的“停顿长度”感官
符号 | 效果 | 停顿长度 |
|---|---|---|
逗号 , | 轻微停顿后继续 | 短 |
句号 . | 句尾,语调下降 | 中 |
换行 (Enter) | 段落切换,重置呼吸 | 长 |
问号 ? | 句尾上扬 | 中 |
感叹号 ! | 充满力度 | 中 |
省略号 … | 余韵、迟疑 | 长(柔和) |
连字符 - | 极短的瞬间断点 | 极短 |
② 连字符(-)——我们私藏的绝招
当你觉得用逗号停顿太长,不加符号又连读导致听不清时,那个“微妙的间隙”就要靠连字符来填补。
发音拆分: 七-十一 → 防止读成“七十一岁”
微呼吸: 好,那么- 给下一句留出自然转折的空间
制造紧张感: 真相-就是- 通过短暂断句营造呼吸感
关于连字符的妙用,资深用户经验贴中有更深度的探讨。“用连字符替代逗号”是核心技巧。
📌 v3 用户必读:换行符是一把双刃剑
v3 的特性是每次换行(段落切换)时,音色会进行微调。
因此,若想保持长内容中的音色高度一致,尽量减少换行,将其作为整体输入;
反之,如果想在不同场景切换氛围,则可以利用换行来改变语态。根据你的需求灵活选择。
③ 精准的停顿控制 — 各模型完全不同 ⚡
当需要“在这里精准停顿 1 秒”时,很多用户会在这里栽跟头,因为方法取决于你使用的模型。
情况 | 实现停顿的方法 | 备注 |
|---|---|---|
v3 模型 | [pause] · [short pause] · [long pause] | 方括号音频标签 — v3 专属 |
v2 · Turbo · Flash | <break time="1.5s" /> | 精确秒数指定,v3 不支持此标签 |
Studio (Web 编辑器) | 点击“插入停顿(pause)”按钮 → 设置秒数 | 最便捷,无需手写代码 |
🚨 最常见失误:在 v3 脚本中添加 <break> 标签
v3 不支持 SSML break 标签,输入后会被直接忽略。在 v3 中请使用 [pause] 标签,或者利用前文提到的省略号(…)·连字符(—)。相反,v2 系列不支持 [pause],请务必使用 <break>。确认模型是第一步。
如果你在 Studio (Web 编辑器) 工作,完全不需要手敲标签,直接使用界面上的停顿按钮即可,这是最省心的选择。
※ 不论使用哪种方法,切勿过量 —— 在一份文案中塞入过多停顿会导致语音输出变得极不稳定。
📋 4. 实战 Prompt 模板(复制即用)
理论够多了,现在给你一些直接能用的模板。
方括号标签适用于 v3,普通标点、连字符及同音字处理适用于所有模型。
① YouTube 知识类旁白
[curious] 大家知道这个吗?
今天要分享的内容-虽然简单,但效果立竿见影。
[excited] 好,让我们马上开始吧!
要点:开头用 [curious] 营造好奇心,进入正题用 [excited] 提升张力。用连字符留出一拍呼吸。
▶ 建议模型: Eleven v3
② 角色台词(情感演绎)
[whispers] 别告诉任何人……
[nervous] 其实那天,我真的在现场。
[sighs] 就算现在后悔,也来不及了。
要点:短句 + 强情感标签 = v3 的绝对领域。非常适合角色配音、漫画广播剧。
▶ 建议模型: Eleven v3
③ 产品广告(15秒左右)
[excited] 仅此一天!今天享受此优惠。
犹豫-只会迟滞配送。
[calm] 马上行动,做出比 ChatGPT 更明智的选择吧。
要点:高亢 → 文案 → 平静结尾,控制强弱对比。英文单词尽量汉化以防发音翻车。
▶ 建议模型: Eleven v3
④ 平静的引导词 / 说明音
您好,尊敬的客户。
现在开始为您说明安装方法,请按步骤操作。
首先,请长按电源键,持续三秒。
要点:无需标签,仅靠逗号精准分句。对于长内容的一致性要求高,v2 会更加稳定。
▶ 建议模型: Eleven Multilingual v2
✅ Prompt 撰写核对表
想要用情感·音效标签 → 确认选的是 v3 吗?
标签写的是 英文,且每句不超过 1 个吗?
英语·专有名词·数字是否通过 替换或连字符 调整过发音?
重复出现的专有名词是否在 发音词典 中注册了英文拼写?
如果是长内容但音色不稳定 → 减少换行或切换至 v2 试试看?
最终输出后 听了一遍预览吗?(只用眼睛看是发现不了问题的!)
❓ FAQ — 提示词常见问题
Q. 我加了 [excited] 标签,为什么它直接念出了“衣克塞提德”?
因为你当前使用的模型是 v2 (Multilingual v2)。音频标签仅在 v3 中会被转化为演绎指令,在 v2 中会被当做文本朗读。请切换至 v3 后再试。
Q. 标签必须用英文吗?中文 [兴奋] 不行吗?
中文标签偶尔有效,但稳定性很差。v3 标签基于英文训练,强烈推荐使用 [whispers]、[laughs] 这样的英文标签。直接复制文中的表格使用即可。
Q. 数字和英文缩写老是读错,最快的解决办法?
如果是单次使用,替换成同音汉字(API → 艾-皮-爱)最快。如果频繁出现,请在发音词典中添加该词的英文拼写(Alias 栏不需要连字符,直接填 'Key Pee Eye')。连读问题则在原文中加上连字符。
Q. 脚本太长,中途音色变了,能用提示词控制吗?
v3 有“换行即刷新音色”的特性,尝试减少换行并保持作为一个整体输入。如果仍不稳定,使用音色更一致的 v2 是最稳妥的选择。
Q. 叠加多个情感标签会更丰富吗?
虽然支持组合标签,但在一句话里堆砌过多会导致语速、音质不稳定。保持每句 1 个标签是既安全又自然的最优解。
🎁 结语
再总结一下今天的内容:
情感·音效标签([excited], [laughs])是 v3 专属,用英文写,默认每句一个。
发音处理:替换同音字 → 加连字符 → 发音词典(Alias 填英文,别加连字符)。
断句:用标点符号,微呼吸用连字符,精准停顿需视模型而定(v3=[pause], v2=<break>, Studio=界面按钮)。
长内容音色漂移,减少换行或换回 v2。
ElevenLabs 的使用归根结底是一场“调教”的艺术。
同样的句子,提示词写法不同,它可以是平庸的朗读,也可以是专业声优的演绎。
把今天模板中的任何一条复制进 ElevenLabs 的文本框点击试听,你只需 1 分钟就能感受到标签如何转化为精彩的表演。
请将本篇提示词指南收藏,每次写脚本时拿出来参考。
你的文本,将从此拥有更生动的声音!
在下一篇文章中,我们会带来更多实用的进阶技巧。
这里是 Sonetho ⚡