Eleven v3 vs v2: сравнение качества озвучки на корейском языке (тест по 4 критериям)

«Сравнивать Multilingual v2 и Eleven v3? Конечно, v3 будет лучше!»
Многие думают именно так, ведь версия Eleven v3 (вышедшая в полноценный релиз после стадии альфа-тестирования) позиционируется как самая передовая модель. Но так ли это на самом деле?
Мы решили лично протестировать обе модели на русском языке, сравнив их работу на примере одного и того же голоса в 4 различных сценариях.
Спойлер: в передаче эмоций v3 безоговорочно лидирует, но в плане стабильности и последовательности голоса v2 всё ещё удерживает позиции.
Давайте разберем, в чем разница для русскоязычных создателей контента, и послушаем 9 реальных аудиодорожек.

Приветствуем! На связи Sonetho. ⚡

С момента официального релиза Eleven v3 прошло уже некоторое время.
Кажется, что v3 постепенно становится «моделью по умолчанию», однако практикующие креаторы знают: v3 превосходит v2 далеко не во всех аспектах (мы сами всё ещё активно используем v2 в некоторых проектах!).

Решено было провести детальный тест: сгенерировать один и тот же текст на русском языке с использованием одного и того же голоса на двух моделях — v2 и v3, чтобы наглядно показать разницу.

👉 Для нашего эксперимента мы использовали тариф ElevenLabs Creator ($22/мес).
Обе модели (v2 и v3) поддерживают профессиональное клонирование голоса (PVC) начиная с этого тарифа. Кстати, новые пользователи могут начать со скидкой 50% на первый месяц всего за $11.

🔬 Методология теста

Модели: Eleven Multilingual v2 vs. Eleven v3
Голос: Популярный голос из библиотеки ElevenLabs — Mike (Friendly, Balanced and Clear) с поддержкой PVC.
Текст: 4 разных сегмента (нейтральный тон, эмоции, смесь языков/чисел, звуковые теги).
Экспериментальный нюанс (только для Сегмента 1): Сравнение v3 в двух вариантах — с переносами строк (абзацами) и без них, чтобы проверить стабильность тембра от предложения к предложению.
Намеренное усложнение (Сегмент 3): Ввод сложных сокращений и символов («GPT-5.5», «$22», «Claude Opus 4.7», «API 300ms») без транслитерации на кириллицу. Проверим, как модели справляются с чтением англицизмов и числительных в контексте русских падежей.

🎙️ Сегмент 1 — Нейтральный тон (Обычное повествование)

Обычное повествовательное предложение на русском языке.
Главная фишка этого теста — не сам текст, а то, как перенос строки (абзац) влияет на стабильность голоса.

Мы ввели один и тот же текст в ElevenLabs Studio двумя способами:

С переносами строк: текст разнят на 4 коротких абзаца (каждое предложение — отдельный абзац).
Без переносов строк: весь текст объединен в один сплошной абзац.

v2 (С переносами строк)

v3 (С переносами строк)

v3 (Без переносов — один абзац)

📌 Инсайт 1: Eleven v3 заметно меняет тембр на каждом новом абзаце (переносе строки).

В модели v2 тон, интонация и темп речи остаются стабильными на протяжении всей генерации, независимо от структуры текста.
В v3 же при каждом переходе на новый абзац голос будто инициализируется заново (re-seed), из-за чего слегка меняется его окраска, а окончания слов иногда неестественно «срезаются».

Когда мы убрали все переносы строк (третий аудиопример), v3 показала отличную стабильность.
Это доказывает, что проблема непостоянства — не баг модели, а её архитектурная особенность: генерация «сидов» привязана к абзацам.

Почему это важно? Если вы озвучиваете длинные видео для YouTube, аудиокниги или создаете подкасты, где важна абсолютная однородность повествования, использовать v3 «в лоб» с абзацами может быть проблематично.
В качестве обходного пути приходится сводить деление на абзацы к минимуму или генерировать текст единым блоком в ElevenLabs Studio (хотя тут мы упираемся в лимит символов).

😊 Сегмент 2 — Передача эмоций (Удивление, радость, серьезность)

В этом сегменте мы оценивали способность моделей передавать тонкие оттенки эмоций на примере одной фразы.

📌 Инсайт 2: В плане передачи эмоций v3 безоговорочно побеждает.

У модели v2 эмоциональный диапазон довольно ровный и монотонный.
Удивленное *«Ого, серьезно?!»* и задумчивое *«Честно говоря, я был в шоке...»* звучат практически с одинаковой интонацией.

В v3 динамический диапазон просто поражает.
Удивление звучит ярко, со взлетом тона вверх, а в серьезных моментах появляется глубокое дыхание. В драматических фразах модель даже симулирует естественные микропаузы и вздохи, будто спикер на секунду задумался.

Здесь v2 не может составить конкуренцию. Для рекламы, дубляжа фильмов, озвучки игр и любого контента, завязанного на актерской игре, Eleven v3 — лучший выбор.

Хотите протестировать эмоциональность v3? Обе модели доступны в рамках одного тарифа

И v2, и v3 доступны на тарифе Creator, где вы также можете создать свое профессиональное клонирование голоса (PVC). Начните со скидкой 50% на первый месяц ($11) и сравните их лично.

Попробовать v2 и v3 со скидкой 50% на тарифе Creator →

🔤 Сегмент 3 — Смесь языков, чисел и брендов

Пожалуй, самая интересная зона компромиссов (trade-offs) в нашем тесте.

Мы намеренно вставили в русский текст сложные для озвучки элементы: «GPT-5.5», «$22», «Claude Opus 4.7», «API 300ms» в их оригинальном ангλοязычном написании без транслитерации на кириллицу.

📌 Инсайт 3: Зависимость от обучающих данных (Trade-off).

Модель v2 жестко опирается на данные, на которых обучался конкретный голос.
Если при создании PVC вы загрузили много записей со смесью русского и английского языков, а также с числами, v2 озвучит их плавно.
Но если в исходниках не было подобных паттернов, v2 может споткнуться даже на простых цифрах или прочесть их с сильным акцентом.

Модель v3 гораздо менее зависима от обучающих данных клона.
Она «на лету» понимает контекст: без проблем превращает «$22» в «двадцать два доллара», а «300ms» в «триста миллисекунд», соблюдая правила русского языка.

📌 Инсайт 4 (Новая слабость v3): Непоследовательность в произношении иностранных слов.

В рамках одной генерации v3 может метаться между британским, американским и даже специфическим восточноевропейским акцентом при чтении английских слов.
Например, ударение в слове «ElevenLabs» может внезапно сместиться, а слово «Creator» во второй раз прозвучит иначе, чем в первый.
Если вам нужно кристально чистое и одинаковое произношение терминов на протяжении всего видео, это потребует ручной перегенерации отдельных фраз.

Модель v2, напротив, строго держит один и тот же шаблон произношения (даже если он слегка несовершенен), что обеспечивает лучшую предсказуемость.

Подводя итог:

В условиях нашего теста (официальный голос Mike): v2 неплохо справляется со смесью языков, так как база голоса очень качественная. Но v3 делает это всё равно мягче и естественнее.
Если у вас качественный PVC + много английского в исходниках: v2 выдаст предсказуемый результат с ровным произношением. Это зачастую удобнее, чем непредсказуемый акцент в v3.
Если у вас PVC без англоязычной базы: v2 может читать иностранные слова и цифры с трудом. В этом случае v3 гораздо безопаснее.
Если критически важно держать один акцент для терминов в видео: v2 (потребует меньше правок).

Таким образом, полнота ваших обучающих данных для PVC — это ключевой фактор успеха при использовании v2.
Наш тест проводился на голосе Mike (официальный голос библиотеки с богатыми исходными данными), что близко к идеальным условиям.

🎭 Сегмент 4 — Звуковые теги ([laughter], [sigh] и др.)

🎧 Не просто читайте про звуковые теги — попробуйте их сами!

Эмоции и звуковые теги в v3 лучше всего оценивать на практике. Если вставить в поле Text to Speech фразы с тегами вроде [laughter] (смех) или [sigh] (вздох) в квадратных скобках, вы получите живой результат за считанные секунды.

🎙️ Попробовать теги v3 в Text to Speech →

Одно из главных нововведений Eleven v3 — поддержка звуковых тегов (невербальных звуков).
Мы сравнили, как обе модели реагируют на такие маркеры в тексте.

📌 Инсайт 5: Модель v2 просто зачитывает теги текстом или игнорирует их.

Если в тексте для v2 написать `[laughter]` или `[sigh]`, она буквально прочитает это голосом («смех», «вздох») либо проигнорирует скобки.
Сама концепция невербальных звуковых тегов старой модели неизвестна.

В v3 эти теги преобразуются в реальные звуки.
Вместо чтения текста `[laughter]` вы услышите естественный смешок, а вместо `[sigh]` — реалистичный вздох.
Здесь превосходство v3 неоспоримо.

📊 Сравнение моделей по ключевым критериям

Критерий	v2	v3	Победитель
Естественность обычного тона	Хорошо	Отлично	v3
Стабильность голоса (между абзацами)	Очень стабильно	Меняется при генерации	v2
Стабильность иностранного произношения	Стабильно	Колеблется (Брит. ↔ Амер.)	v2
Динамика эмоций	Монотонно	Богатая / Живая	v3
Числа/Символы (при наличии в PVC)	Естественно	Естественно	Ничья
Числа/Символы (без базы в PVC)	Слабо (с ошибками)	Хорошо	v3
Обработка имен собственных и заимствований	Зависит от базы клона	Гибко / Автоматически	v3
Звуковые теги (напр., [laughter])	Игнорирует / Читает текстом	Воспроизводит звук	v3

Вывод: «Нужны обе модели» — и тариф Creator решает эту задачу

Поскольку v2 и v3 сильны в разных сценариях, оптимальное решение — использовать тариф Creator ($22/мес), где доступны обе модели. А со скидкой 50% на первый месяц ($11) это еще и максимально выгодно.

Начать работу с v2 и v3 на тарифе Creator со скидкой 50% →

🎯 Какую модель выбрать под ваши задачи — Рекомендуемые сценарии

① Сериальный контент, дубляж персонажей, аудиокниги — v2

Для длинных нарративов, состоящих из множества абзацев, критически важна стабильность голоса.
Из-за особенности v3 менять тон на абзацах (re-seed), голос рассказчика может «плавать» от главы к главе. В таких задачах v2 остается бесспорным лидером, особенно если ваш PVC-клон качественно обучен.

② Короткая реклама, эмоциональный дубляж, игровые персонажи — v3

В плане экспрессии и живых интонаций v2 сильно уступает v3.
Для динамичных, ярких и коротких роликов (Reels, Shorts, реклама) Eleven v3 подходит идеально.

③ Озвучка через API, чтение документов со сложной терминологией и обилием чисел — v3

v3 отлично справляется с незнакомыми терминами, аббревиатурами и цифрами без предварительной подготовки и долгого обучения клона.
Однако, если важна абсолютная стабильность произношения иностранных терминов в русском тексте, будьте готовы к точечным правкам.

💡 Как озвучивать отчеты и документы на иностранных языках с помощью v3 и ElevenReader, читайте здесь → Руководство по озвучке документов в ElevenReader с моделью v3

④ Контент с интерактивными звуками (тегами) — v3

Если сценарий требует вздохов, смеха или шепота через теги вроде `[laughter]`, `[sigh]`, `[whisper]`, то альтернативы v3 просто нет.

⑤ Постоянный контент на основе собственного PVC-клона — v2

Если вы ежедневно генерируете контент с собственным клонированным голосом (и у вас хорошая база исходников), v2 обеспечит гораздо более предсказуемый результат по тембру, ударениям и интонациям, чем v3.

💡 Итоги и рекомендации Sonetho

Хотя ElevenLabs активно продвигает v3 как стандарт будущего, на сегодняшний день v3 не может полностью вытеснить v2 во всех сценариях.

Проблема нестабильности голоса в v3 — это скорее архитектурная фича «re-seed на абзац», нежели баг.
Возможно, команда доработает этот момент в будущих обновлениях ветки v3 (GA), и мы обязательно будем следить за этим.

Наш вердикт на сегодня:
Нужна стабильность голоса + ровное иностранное произношение + работа со своим PVC-клоном? Оставайтесь на v2.
Нужны живые эмоции + звуковые теги + чтение сложных терминов без подготовки? Выбирайте v3.
Разумнее всего комбинировать обе модели под конкретные задачи вашего конвейера контента.

👉 Подробности о том, как получить скидку, читайте в нашем материале: Гид по скидкам ElevenLabs на 2026 год.
👉 Или просто перейдите по ссылке автоматической активации скидки 50% (для новых аккаунтов), чтобы начать прямо сейчас.

📚 Другие полезные статьи в нашем блоге

До встречи в следующих выпусках! С вами был Sonetho. ⚡

📚 Рекомендуем к прочтению

Почему ElevenLabs стоит в 3 раза дороже конкурентов? Сравнение TTS с Google и Amazon (Цены, качество и русский язык в 2026 году)

Снижение цен на ElevenLabs API до 55%! Гайд по системе оплаты Pay-As-You-Go — от выбора модели до расчета стоимости