ElevenLabs提示词完全指南:如何通过情感与停顿标签优化语音效果?

本篇全面解析ElevenLabs提示词编写技巧。从v3情感与音效音频标签的使用,到纠正发音、利用句号、连字符及break标签精准控制停顿节奏,助您掌握语音合成的进阶秘诀。此外,文中还整理了适用于YouTube、角色配音及广告宣传的复制粘贴型提示词模板,让您的文本转换效果更专业、自然,轻松打造高品质音频内容。

"明明是同一份文案,怎么昨天生成的和今天生成的语感完全不同?"

在使用 ElevenLabs 时,这几乎是每位创作者都会遇到的困惑。
事实上,这 80% 的差异源于“Prompt(提示词/输入文本)的撰写方式”

你好,这里是 Sonetho

在 ElevenLabs 中,“Prompt(提示词)”并不是什么高深莫测的技术术语,它指的就是你输入进去、想要转换成语音的那些文字本身
但关键在于,这些文字绝非简单的“字符堆砌”。

 

同样的“这真是太棒了”这句话,
直接输入,它只会平铺直叙地念出来;
但如果在前面加一个情感标签,它就能瞬间演绎出那种“惊喜万分”的语调。
哪怕是一个数字、一个句点、一个连字符,都能让输出结果产生天差地别。

 

我们几乎每天都在调优 ElevenLabs 的各项模型,持续了近三年。
今天,我们决定专门深挖一下“Prompt 撰写技巧”
涵盖 v3 音频标签、发音校准、断句控制,以及可以直接复制粘贴的实战模板,请务必看到最后!

 


📌 首先:Prompt 的用法取决于所选的“模型”

在进入正题前,我们要明确一点。
接下来将要介绍的“音频标签(audio tag)”——也就是像 [excited][laughs] 这样放在方括号里的指令,仅在 Eleven v3 模型中有效

 

如果在 v2 (Multilingual v2) 中使用这些标签会怎样呢?
模型不会将其转化为“表演”,而是直接把标签当作普通文本读出来(标签可能会被朗读,或者被直接忽略)。😅
(我们曾对比过 v2 与 v3 的表现,感兴趣的话可以在 Eleven v3 与 v2 中文表现对比 中收听 9 个测试片段。)

 

一句话总结
想要情感·音效标签 → 选用 v3
长内容 + 音色一致性至关重要 → 选用 v2(避免 v3 在不同段落间音色略有波动的特点)
发音校准·断句(连字符)v2 与 v3 通用

想深入了解各模型优缺点的话,推荐阅读 资深用户的 v2 vs v3 使用心得

 


🎭 1. v3 音频标签全总结(情感 · 音效)

音频标签是在方括号 [ ] 内用英文标注“该如何说话”的指令
官方指南通常建议标签会影响“后续文本的演绎效果”,
根据我们的经验,放在句子前面通常会定下整句话的情感基调,
而插入句子中间则常用于触发特定效果(如笑声、叹气等)。
(这不是死规则,但这样用通常最自然。)

 

请记住两点要旨:

  • 标签需使用“英文”书写。(相比中文标签 [兴奋],使用英文 [excited] 的效果要好得多)

  • 标签本身不会被读出来。 它只是表演指令,AI 不会把它念成“衣克塞提德”。
    (仅限 v3 模型。)

 

① 情感语气标签(放在句首效果最佳)

标签

含义 / 效果

适用场景

[excited]

兴奋、激动

活动播报、新品发布

[sad]

低沉、悲伤

情感叙事、故事朗读

[angry]

愤怒、激昂

角色台词、戏剧性场景

[whispers]

耳语、轻声

秘密分享、ASMR、紧张氛围

[sarcastic]

讽刺、阴阳怪气

幽默内容、角色性格

[curious]

好奇、询问

提问式旁白

[nervous]

紧张、颤抖

紧急局势描述

[calm]

冷静、平稳

冥想引导、教程说明

 

实战输入示例 (v3):

[excited] 各位,我们的新产品终于发布了!
[whispers] 其实呢,我们专门准备了今天限时的特别折扣。

👉 第一句语调向上提升,第二句则瞬间压低声音如耳语般诉说。
这种在同一段脚本中切换语态的能力,正是 v3 标签的精髓所在。

 

② 音效(非语言)标签(放在句子中间)

这不仅仅是“语气”,而是真实的音效
它能实时生成笑声、叹气、咳嗽等“非语言类声音”

标签

声音效果

建议位置

[laughs]

大笑

句中或句尾

[chuckles]

轻笑、嗤笑

句中或句尾

[sighs]

叹气

句首或句中

[gasps]

吸气、惊叹声

句首

[clears throat]

清嗓子

句首

[exhales]

呼气声

句中或句尾

 

实战输入示例 (v3):

啊,又把这事给忘了。[sighs] 看来得重新来一遍了。
所以昨天我做了什么呢…… [laughs] 我犯了一个天大的错误。

 

📌 小贴士:标签贵在“适度” ⚡
虽然你可以组合使用多个标签,但如果一句话里堆砌过多,可能会导致语调不稳定(如语速忽快忽慢、产生杂音)或被模型直接忽略。
我们的结论是:默认一句话加一个标签,只在最关键的地方画龙点睛。越简洁,效果往往越自然。

 


🔤 2. 发音校准:处理专有名词、英文与数字

即便提示词写得再好,如果 AI 把“ChatGPT”念成奇怪的音,那也无济于事。😭
发音问题与语气情感是完全不同的领域,处理方法也不同。

 

解决发音的方法主要有三种:

① 同音字替换(最简单、即时修复)

直接输入根据发音改写的汉字或拼音。例如:

  • API艾-皮-爱

  • 2026年二零二六 年(当 AI 对数字读取不准确时)

如果是只需用一次的脚本,这是最快的方法。

 

② 使用连字符(-)拆解发音

当两个字连在一起读起来怪异时(例如把“七-十一”读成连读),中间加上连字符可以强制停顿,让发音更清晰。

七-十一 / 查特-GPT / 艾-皮-爱

连字符不仅能拆分发音,还能制造极短的停顿。

 

③ 发音词典(Pronunciation Dictionary,长期必备)

如果同样的专有名词在每期视频中都会出现,每次都手动修改太麻烦了。
这时,将该词加入“发音词典”中,以后直接输入原文,AI 就会自动按你设定的正确读法转换。

 

🚨 常见失误 (请注意节省积分!)
在词典的 Alias(别名)一栏,可以填入能获得正确中文发音的文字。但为了确保读取稳定,针对英文缩写,填入音标或同音英文单词效果更好。例如:KPI → Key Pee Eye

※ 易混淆点:发音词典 Alias 中不需要加连字符。直接空格分开英文即可。
连字符(-)不是词典工具,而是文本输入框中用于断句和拆解发音的利器(详见下文第 3 点)。

制作发音词典的方法,我们在 ElevenLabs 发音校准完美指南 中有详细截图,1 分钟即可学会。
如果发音总是出问题,请务必先阅读那篇指南!

 

顺便一提,v3 模型比 v2 处理生僻数字·符号模式(如 "$22" → "二十二美元")更加灵活。
但它在处理同一个英文词时,有时会混用美式和英式口音,如果对发音一致性要求极高,建议通过发音词典锁定读法

 


⏸️ 3. 断句与呼吸控制:标点符号与连字符的魔法

在提示词中,被忽视但极其强大的工具其实是标点符号
AI 会根据你留下的符号,决定“哪里该停、停顿多久、以什么样的语调结束”。

 

① 符号对应的“停顿长度”感官

符号

效果

停顿长度

逗号 ,

轻微停顿后继续

句号 .

句尾,语调下降

换行 (Enter)

段落切换,重置呼吸

问号 ?

句尾上扬

感叹号 !

充满力度

省略号 …

余韵、迟疑

长(柔和)

连字符 -

极短的瞬间断点

极短

 

② 连字符(-)——我们私藏的绝招

当你觉得用逗号停顿太长,不加符号又连读导致听不清时,那个“微妙的间隙”就要靠连字符来填补。

  • 发音拆分: 七-十一 → 防止读成“七十一岁”

  • 微呼吸: 好,那么- 给下一句留出自然转折的空间

  • 制造紧张感: 真相-就是- 通过短暂断句营造呼吸感

关于连字符的妙用,资深用户经验贴中有更深度的探讨。“用连字符替代逗号”是核心技巧。

 

📌 v3 用户必读:换行符是一把双刃剑
v3 的特性是每次换行(段落切换)时,音色会进行微调
因此,若想保持长内容中的音色高度一致,尽量减少换行,将其作为整体输入;
反之,如果想在不同场景切换氛围,则可以利用换行来改变语态。根据你的需求灵活选择。

 

③ 精准的停顿控制 — 各模型完全不同 ⚡

当需要“在这里精准停顿 1 秒”时,很多用户会在这里栽跟头,因为方法取决于你使用的模型

情况

实现停顿的方法

备注

v3 模型

[pause] · [short pause] · [long pause]

方括号音频标签 — v3 专属

v2 · Turbo · Flash

<break time="1.5s" />

精确秒数指定,v3 不支持此标签

Studio (Web 编辑器)

点击“插入停顿(pause)”按钮 → 设置秒数

最便捷,无需手写代码

 

🚨 最常见失误:在 v3 脚本中添加 <break> 标签
v3 不支持 SSML break 标签,输入后会被直接忽略。在 v3 中请使用 [pause] 标签,或者利用前文提到的省略号(…)·连字符(—)。相反,v2 系列不支持 [pause],请务必使用 <break>。确认模型是第一步

如果你在 Studio (Web 编辑器) 工作,完全不需要手敲标签,直接使用界面上的停顿按钮即可,这是最省心的选择。

※ 不论使用哪种方法,切勿过量 —— 在一份文案中塞入过多停顿会导致语音输出变得极不稳定。

 


📋 4. 实战 Prompt 模板(复制即用)

理论够多了,现在给你一些直接能用的模板。
方括号标签适用于 v3,普通标点、连字符及同音字处理适用于所有模型

 

① YouTube 知识类旁白

[curious] 大家知道这个吗?
今天要分享的内容-虽然简单,但效果立竿见影。
[excited] 好,让我们马上开始吧!

要点:开头用 [curious] 营造好奇心,进入正题用 [excited] 提升张力。用连字符留出一拍呼吸。
▶ 建议模型: Eleven v3

 

② 角色台词(情感演绎)

[whispers] 别告诉任何人……
[nervous] 其实那天,我真的在现场。
[sighs] 就算现在后悔,也来不及了。

要点:短句 + 强情感标签 = v3 的绝对领域。非常适合角色配音、漫画广播剧。
▶ 建议模型: Eleven v3

 

③ 产品广告(15秒左右)

[excited] 仅此一天!今天享受此优惠。
犹豫-只会迟滞配送。
[calm] 马上行动,做出比 ChatGPT 更明智的选择吧。

要点:高亢 → 文案 → 平静结尾,控制强弱对比。英文单词尽量汉化以防发音翻车。
▶ 建议模型: Eleven v3

 

④ 平静的引导词 / 说明音

您好,尊敬的客户。
现在开始为您说明安装方法,请按步骤操作。
首先,请长按电源键,持续三秒。

要点:无需标签,仅靠逗号精准分句。对于长内容的一致性要求高,v2 会更加稳定。
▶ 建议模型: Eleven Multilingual v2

 

✅ Prompt 撰写核对表

  • 想要用情感·音效标签 → 确认选的是 v3 吗?

  • 标签写的是 英文,且每句不超过 1 个吗?

  • 英语·专有名词·数字是否通过 替换或连字符 调整过发音?

  • 重复出现的专有名词是否在 发音词典 中注册了英文拼写?

  • 如果是长内容但音色不稳定 → 减少换行或切换至 v2 试试看?

  • 最终输出后 听了一遍预览吗?(只用眼睛看是发现不了问题的!)

 


❓ FAQ — 提示词常见问题

 

Q. 我加了 [excited] 标签,为什么它直接念出了“衣克塞提德”?
因为你当前使用的模型是 v2 (Multilingual v2)。音频标签仅在 v3 中会被转化为演绎指令,在 v2 中会被当做文本朗读。请切换至 v3 后再试。

 

Q. 标签必须用英文吗?中文 [兴奋] 不行吗?
中文标签偶尔有效,但稳定性很差。v3 标签基于英文训练,强烈推荐使用 [whispers]、[laughs] 这样的英文标签。直接复制文中的表格使用即可。

 

Q. 数字和英文缩写老是读错,最快的解决办法?
如果是单次使用,替换成同音汉字(API → 艾-皮-爱)最快。如果频繁出现,请在发音词典中添加该词的英文拼写(Alias 栏不需要连字符,直接填 'Key Pee Eye')。连读问题则在原文中加上连字符

 

Q. 脚本太长,中途音色变了,能用提示词控制吗?
v3 有“换行即刷新音色”的特性,尝试减少换行并保持作为一个整体输入。如果仍不稳定,使用音色更一致的 v2 是最稳妥的选择。

 

Q. 叠加多个情感标签会更丰富吗?
虽然支持组合标签,但在一句话里堆砌过多会导致语速、音质不稳定。保持每句 1 个标签是既安全又自然的最优解。

 


🎁 结语

再总结一下今天的内容:

  • 情感·音效标签([excited], [laughs])是 v3 专属,用英文写,默认每句一个。

  • 发音处理:替换同音字 → 加连字符 → 发音词典(Alias 填英文,别加连字符)。

  • 断句:用标点符号,微呼吸用连字符,精准停顿需视模型而定(v3=[pause], v2=<break>, Studio=界面按钮)。

  • 长内容音色漂移,减少换行或换回 v2。

 

ElevenLabs 的使用归根结底是一场“调教”的艺术。
同样的句子,提示词写法不同,它可以是平庸的朗读,也可以是专业声优的演绎。

 

把今天模板中的任何一条复制进 ElevenLabs 的文本框点击试听,你只需 1 分钟就能感受到标签如何转化为精彩的表演。
请将本篇提示词指南收藏,每次写脚本时拿出来参考。
你的文本,将从此拥有更生动的声音!

 

在下一篇文章中,我们会带来更多实用的进阶技巧。
这里是 Sonetho ⚡