"从歌剧到重金属,在同一首乐曲中实现自然流转。"
ElevenLabs 正式发布次世代音乐模型 Music v2。
大家好,这里是 Sonetho。⚡
2026年5月27日,ElevenLabs 正式宣布推出全新音乐模型 Music v2。距离 Music v1 发布仅过去约 4 个月,这无疑是一次重要的迭代。官方公告明确指出:"在品质、控制力及创意维度上实现了跨代式的飞跃 (major step forward)"。
今天,我们将深度解析 ElevenLabs 官方发布的 v2 核心升级点,并预告我们将如何进行全方位测评。实际的测试结果与演示音频包,将在下一篇文章中与大家分享。
🎯 ElevenLabs 官方公布的 v2 四大核心升级
1. 高度可控的生成能力 (Highly Steerable Generation)
官方文案:"无论是快速说唱、复杂的声乐咬字,还是突如其来的风格、力度及乐器转换,模型都能精准响应细致的创意指令。"
→ 核心观察点:v1 版本在输入长指令时,常出现“形似而神不似”的情况。我们将重点验证 v2 是否真正做到了对细节的精准复刻。
2. 原生音质提升 (Improved Sound by Default)
官方文案:"优化了声乐、乐器编排与表现力,模型直接生成的原始素材听感更加精雕细琢 (polished),表现力更强,更具听感享受。"
→ 核心观察点:我们将在与 v1 相同参数的条件下,验证“不经人工精修,默认生成效果是否已达到专业制作标准”。
3. 风格流转 (Genre Transitions)
官方文案:"在同一首曲子内,可以像从歌剧丝滑切换到重金属一样,保持极高的音乐一致性 (coherence),无需任何后期剪辑 (splicing)。"
→ 核心观察点:如果这一功能属实,将彻底重塑 BGM 的制作流程。我们将实测曲目内的过渡是否顺滑,是否存在突兀的断层或跳跃。
4. 多语言生成 (Multilingual Generation)
官方文案:"增强了多语言音乐生成能力,无论是歌词表现、声乐处理还是编曲,在目标语言下运行都更加稳定。"
→ 核心观察点(对中文创作者尤为关键):v1 在生成中文歌词时,偶尔会出现发音僵硬或带有明显西式腔调的情况。我们将通过中文歌词实测,观察 v2 是否解决了中文咬字(尤其是多音字处理)这一痛点。
💡 这次更新对谁最重要?
基于官方发布内容,我们推测以下用户将是最大受益者:
华语流行乐制作人 — 如果你对 v1 的中文声乐表现感到失望,请务必关注 v2 的测评结果。
短视频平台 (抖音/视频号/小红书) BGM 创作者 — 若“一首曲子跨越多种风格”的说法属实,你制作 30 秒“吸睛”转场 BGM 的效率将大幅提升。
寻找高性价比方案的创作者 — 面对其他主流 AI 音乐平台免费额度封顶的困扰,ElevenLabs Creator 方案(每月 22 美元,优惠后可低至 11 美元)可以让你一次性获得 PVC、音频配音、Music v2、Studio 以及 Agents 等全套工具。
🎵 立即开启体验
Music v2 现已在 ElevenMusic 全面上线,使用免费计划的额度即可进行初步测试。
🔬 下期预告:v1 与 v2 深度对比测评包
空谈不如实测。编辑部准备了相同的歌词 + 相同的结构 + 3 种不同风格提示词,将 v1 与 v2 的生成结果并排呈现。
通用英文歌词 — 测试对结构标签(如
[Intro],[Verse],[Chorus],[Outro])的执行能力。3 种风格提示词 — Synthwave(音轨分离度)、Modern Alt Rock(乐器层次感)、R&B/Neo-Soul(人声细节处理)。
共计 6 条曲目 — v1 与 v2 同台竞技。
听觉指南三大重点 — 人声复杂性 / 乐器清晰度 / 整体结构认知。
下一期文章将公开全部音频包,让你的耳朵亲耳验证差异。🔔
📚 延伸阅读推荐
祝大家创作愉快!
Sonetho ⚡