ElevenLabs提示词完全指南：如何通过情感与停顿标签优化语音效果？

Q: 我加了 [excited] 标签，为什么它直接念出了“衣克塞提德”？

因为你当前使用的模型是 v2 (Multilingual v2) 。音频标签仅在 v3 中会被转化为演绎指令，在 v2 中会被当做文本朗读。请切换至 v3 后再试。

Q: 标签必须用英文吗？中文 [兴奋] 不行吗？

中文标签偶尔有效，但稳定性很差。v3 标签基于英文训练， 强烈推荐使用 [whispers]、[laughs] 这样的英文标签 。直接复制文中的表格使用即可。

Q: 数字和英文缩写老是读错，最快的解决办法？

如果是单次使用， 替换成同音汉字 （API → 艾-皮-爱）最快。如果频繁出现，请在 发音词典中添加该词的英文拼写 （Alias 栏不需要连字符，直接填 'Key Pee Eye'）。连读问题则在原文中加上 连字符 。

Q: 脚本太长，中途音色变了，能用提示词控制吗？

v3 有 “换行即刷新音色” 的特性，尝试减少换行并保持作为一个整体输入。如果仍不稳定，使用音色更一致的 v2 是最稳妥的选择。

Q: 叠加多个情感标签会更丰富吗？

虽然 支持组合标签 ，但在一句话里堆砌过多会导致语速、音质不稳定。 保持每句 1 个标签 是既安全又自然的最优解。

"明明是同一份文案，怎么昨天生成的和今天生成的语感完全不同？"
在使用 ElevenLabs 时，这几乎是每位创作者都会遇到的困惑。
事实上，这 80% 的差异源于“Prompt（提示词/输入文本）的撰写方式”。

你好，这里是 Sonetho ⚡

在 ElevenLabs 中，“Prompt（提示词）”并不是什么高深莫测的技术术语，它指的就是你输入进去、想要转换成语音的那些文字本身。
但关键在于，这些文字绝非简单的“字符堆砌”。

同样的“这真是太棒了”这句话，
直接输入，它只会平铺直叙地念出来；
但如果在前面加一个情感标签，它就能瞬间演绎出那种“惊喜万分”的语调。
哪怕是一个数字、一个句点、一个连字符，都能让输出结果产生天差地别。

我们几乎每天都在调优 ElevenLabs 的各项模型，持续了近三年。
今天，我们决定专门深挖一下“Prompt 撰写技巧”。
涵盖 v3 音频标签、发音校准、断句控制，以及可以直接复制粘贴的实战模板，请务必看到最后！

📌 首先：Prompt 的用法取决于所选的“模型”

在进入正题前，我们要明确一点。
接下来将要介绍的“音频标签（audio tag）”——也就是像 [excited]、[laughs] 这样放在方括号里的指令，仅在 Eleven v3 模型中有效。

如果在 v2 (Multilingual v2) 中使用这些标签会怎样呢？
模型不会将其转化为“表演”，而是直接把标签当作普通文本读出来（标签可能会被朗读，或者被直接忽略）。😅
（我们曾对比过 v2 与 v3 的表现，感兴趣的话可以在 Eleven v3 与 v2 中文表现对比中收听 9 个测试片段。）

一句话总结
• 想要情感·音效标签 → 选用 v3
• 长内容 + 音色一致性至关重要 → 选用 v2（避免 v3 在不同段落间音色略有波动的特点）
• 发音校准·断句（连字符） → v2 与 v3 通用

想深入了解各模型优缺点的话，推荐阅读资深用户的 v2 vs v3 使用心得。

🎭 1. v3 音频标签全总结（情感 · 音效）

音频标签是在方括号 [ ] 内用英文标注“该如何说话”的指令。
官方指南通常建议标签会影响“后续文本的演绎效果”，
根据我们的经验，放在句子前面通常会定下整句话的情感基调，
而插入句子中间则常用于触发特定效果（如笑声、叹气等）。
（这不是死规则，但这样用通常最自然。）

请记住两点要旨：

标签需使用“英文”书写。（相比中文标签 [兴奋]，使用英文 [excited] 的效果要好得多）
标签本身不会被读出来。 它只是表演指令，AI 不会把它念成“衣克塞提德”。
（仅限 v3 模型。）

① 情感语气标签（放在句首效果最佳）

标签	含义 / 效果	适用场景
[excited]	兴奋、激动	活动播报、新品发布
[sad]	低沉、悲伤	情感叙事、故事朗读
[angry]	愤怒、激昂	角色台词、戏剧性场景
[whispers]	耳语、轻声	秘密分享、ASMR、紧张氛围
[sarcastic]	讽刺、阴阳怪气	幽默内容、角色性格
[curious]	好奇、询问	提问式旁白
[nervous]	紧张、颤抖	紧急局势描述
[calm]	冷静、平稳	冥想引导、教程说明

实战输入示例 (v3):

[excited] 各位，我们的新产品终于发布了！
[whispers] 其实呢，我们专门准备了今天限时的特别折扣。

👉 第一句语调向上提升，第二句则瞬间压低声音如耳语般诉说。
这种在同一段脚本中切换语态的能力，正是 v3 标签的精髓所在。

② 音效（非语言）标签（放在句子中间）

这不仅仅是“语气”，而是真实的音效。
它能实时生成笑声、叹气、咳嗽等“非语言类声音”。

标签	声音效果	建议位置
[laughs]	大笑	句中或句尾
[chuckles]	轻笑、嗤笑	句中或句尾
[sighs]	叹气	句首或句中
[gasps]	吸气、惊叹声	句首
[clears throat]	清嗓子	句首
[exhales]	呼气声	句中或句尾

实战输入示例 (v3):

啊，又把这事给忘了。[sighs] 看来得重新来一遍了。
所以昨天我做了什么呢…… [laughs] 我犯了一个天大的错误。

📌 小贴士：标签贵在“适度” ⚡
虽然你可以组合使用多个标签，但如果一句话里堆砌过多，可能会导致语调不稳定（如语速忽快忽慢、产生杂音）或被模型直接忽略。
我们的结论是：默认一句话加一个标签，只在最关键的地方画龙点睛。越简洁，效果往往越自然。

🔤 2. 发音校准：处理专有名词、英文与数字

即便提示词写得再好，如果 AI 把“ChatGPT”念成奇怪的音，那也无济于事。😭
发音问题与语气情感是完全不同的领域，处理方法也不同。

解决发音的方法主要有三种：

① 同音字替换（最简单、即时修复）

直接输入根据发音改写的汉字或拼音。例如：

API → 艾-皮-爱
2026年 → 二零二六年（当 AI 对数字读取不准确时）

如果是只需用一次的脚本，这是最快的方法。

② 使用连字符（-）拆解发音

当两个字连在一起读起来怪异时（例如把“七-十一”读成连读），中间加上连字符可以强制停顿，让发音更清晰。

七-十一 / 查特-GPT / 艾-皮-爱

连字符不仅能拆分发音，还能制造极短的停顿。

③ 发音词典（Pronunciation Dictionary，长期必备）

如果同样的专有名词在每期视频中都会出现，每次都手动修改太麻烦了。
这时，将该词加入“发音词典”中，以后直接输入原文，AI 就会自动按你设定的正确读法转换。

🚨 常见失误 (请注意节省积分！)
在词典的 Alias（别名）一栏，可以填入能获得正确中文发音的文字。但为了确保读取稳定，针对英文缩写，填入音标或同音英文单词效果更好。例如：KPI → Key Pee Eye。

※ 易混淆点：发音词典 Alias 中不需要加连字符。直接空格分开英文即可。
连字符(-)不是词典工具，而是文本输入框中用于断句和拆解发音的利器（详见下文第 3 点）。

制作发音词典的方法，我们在 ElevenLabs 发音校准完美指南中有详细截图，1 分钟即可学会。
如果发音总是出问题，请务必先阅读那篇指南！

顺便一提，v3 模型比 v2 处理生僻数字·符号模式（如 "$22" → "二十二美元"）更加灵活。
但它在处理同一个英文词时，有时会混用美式和英式口音，如果对发音一致性要求极高，建议通过发音词典锁定读法。

⏸️ 3. 断句与呼吸控制：标点符号与连字符的魔法

在提示词中，被忽视但极其强大的工具其实是标点符号。
AI 会根据你留下的符号，决定“哪里该停、停顿多久、以什么样的语调结束”。

① 符号对应的“停顿长度”感官

符号	效果	停顿长度
逗号 ,	轻微停顿后继续	短
句号 .	句尾，语调下降	中
换行 (Enter)	段落切换，重置呼吸	长
问号 ?	句尾上扬	中
感叹号 !	充满力度	中
省略号 …	余韵、迟疑	长（柔和）
连字符 -	极短的瞬间断点	极短

② 连字符（-）——我们私藏的绝招

当你觉得用逗号停顿太长，不加符号又连读导致听不清时，那个“微妙的间隙”就要靠连字符来填补。

发音拆分： 七-十一 → 防止读成“七十一岁”
微呼吸： 好，那么- 给下一句留出自然转折的空间
制造紧张感： 真相-就是- 通过短暂断句营造呼吸感

关于连字符的妙用，资深用户经验贴中有更深度的探讨。“用连字符替代逗号”是核心技巧。

📌 v3 用户必读：换行符是一把双刃剑
v3 的特性是每次换行（段落切换）时，音色会进行微调。
因此，若想保持长内容中的音色高度一致，尽量减少换行，将其作为整体输入；
反之，如果想在不同场景切换氛围，则可以利用换行来改变语态。根据你的需求灵活选择。

③ 精准的停顿控制 — 各模型完全不同 ⚡

当需要“在这里精准停顿 1 秒”时，很多用户会在这里栽跟头，因为方法取决于你使用的模型。

情况	实现停顿的方法	备注
v3 模型	[pause] · [short pause] · [long pause]	方括号音频标签 — v3 专属
v2 · Turbo · Flash	<break time="1.5s" />	精确秒数指定，v3 不支持此标签
Studio (Web 编辑器)	点击“插入停顿（pause）”按钮 → 设置秒数	最便捷，无需手写代码

🚨 最常见失误：在 v3 脚本中添加 <break> 标签
v3 不支持 SSML break 标签，输入后会被直接忽略。在 v3 中请使用 [pause] 标签，或者利用前文提到的省略号(…)·连字符(—)。相反，v2 系列不支持 [pause]，请务必使用 <break>。确认模型是第一步。

如果你在 Studio (Web 编辑器) 工作，完全不需要手敲标签，直接使用界面上的停顿按钮即可，这是最省心的选择。

※ 不论使用哪种方法，切勿过量 —— 在一份文案中塞入过多停顿会导致语音输出变得极不稳定。

📋 4. 实战 Prompt 模板（复制即用）

理论够多了，现在给你一些直接能用的模板。
方括号标签适用于 v3，普通标点、连字符及同音字处理适用于所有模型。

① YouTube 知识类旁白

[curious] 大家知道这个吗？
今天要分享的内容-虽然简单，但效果立竿见影。
[excited] 好，让我们马上开始吧！

要点：开头用 [curious] 营造好奇心，进入正题用 [excited] 提升张力。用连字符留出一拍呼吸。
▶ 建议模型: Eleven v3

② 角色台词（情感演绎）

[whispers] 别告诉任何人……
[nervous] 其实那天，我真的在现场。
[sighs] 就算现在后悔，也来不及了。

要点：短句 + 强情感标签 = v3 的绝对领域。非常适合角色配音、漫画广播剧。
▶ 建议模型: Eleven v3

③ 产品广告（15秒左右）

[excited] 仅此一天！今天享受此优惠。
犹豫-只会迟滞配送。
[calm] 马上行动，做出比 ChatGPT 更明智的选择吧。

要点：高亢 → 文案 → 平静结尾，控制强弱对比。英文单词尽量汉化以防发音翻车。
▶ 建议模型: Eleven v3

④ 平静的引导词 / 说明音

您好，尊敬的客户。
现在开始为您说明安装方法，请按步骤操作。
首先，请长按电源键，持续三秒。

要点：无需标签，仅靠逗号精准分句。对于长内容的一致性要求高，v2 会更加稳定。
▶ 建议模型: Eleven Multilingual v2

✅ Prompt 撰写核对表

想要用情感·音效标签 → 确认选的是 v3 吗？
标签写的是英文，且每句不超过 1 个吗？
英语·专有名词·数字是否通过 替换或连字符 调整过发音？
重复出现的专有名词是否在 发音词典 中注册了英文拼写？
如果是长内容但音色不稳定 → 减少换行或切换至 v2 试试看？
最终输出后 听了一遍预览吗？（只用眼睛看是发现不了问题的！）

❓ FAQ — 提示词常见问题

Q. 我加了 [excited] 标签，为什么它直接念出了“衣克塞提德”？
因为你当前使用的模型是 v2 (Multilingual v2)。音频标签仅在 v3 中会被转化为演绎指令，在 v2 中会被当做文本朗读。请切换至 v3 后再试。

Q. 标签必须用英文吗？中文 [兴奋] 不行吗？
中文标签偶尔有效，但稳定性很差。v3 标签基于英文训练，强烈推荐使用 [whispers]、[laughs] 这样的英文标签。直接复制文中的表格使用即可。

Q. 数字和英文缩写老是读错，最快的解决办法？
如果是单次使用，替换成同音汉字（API → 艾-皮-爱）最快。如果频繁出现，请在发音词典中添加该词的英文拼写（Alias 栏不需要连字符，直接填 'Key Pee Eye'）。连读问题则在原文中加上连字符。

Q. 脚本太长，中途音色变了，能用提示词控制吗？
v3 有“换行即刷新音色”的特性，尝试减少换行并保持作为一个整体输入。如果仍不稳定，使用音色更一致的 v2 是最稳妥的选择。

Q. 叠加多个情感标签会更丰富吗？
虽然支持组合标签，但在一句话里堆砌过多会导致语速、音质不稳定。保持每句 1 个标签是既安全又自然的最优解。

🎁 结语

再总结一下今天的内容：

情感·音效标签（[excited], [laughs]）是 v3 专属，用英文写，默认每句一个。
发音处理：替换同音字 → 加连字符 → 发音词典（Alias 填英文，别加连字符）。
断句：用标点符号，微呼吸用连字符，精准停顿需视模型而定（v3=[pause], v2=<break>, Studio=界面按钮）。
长内容音色漂移，减少换行或换回 v2。

ElevenLabs 的使用归根结底是一场“调教”的艺术。
同样的句子，提示词写法不同，它可以是平庸的朗读，也可以是专业声优的演绎。

把今天模板中的任何一条复制进 ElevenLabs 的文本框点击试听，你只需 1 分钟就能感受到标签如何转化为精彩的表演。
请将本篇提示词指南收藏，每次写脚本时拿出来参考。
你的文本，将从此拥有更生动的声音！

在下一篇文章中，我们会带来更多实用的进阶技巧。
这里是 Sonetho ⚡