Аватары ElevenLabs: одно фото + сценарий, и видео с «говорящим ИИ-человеком» готово ⚡

Голосовая компания ElevenLabs выпустила в ElevenCreative функцию «Avatars (аватары)». Загружаете фото и создаёте своего ИИ-персонажа, пишете сценарий, и видео, где он говорит с попаданием в губы, собирается за один заход. Голос и липсинк создаются на одном экране вместе, и в этом сильная сторона по сравнению с HeyGen и Synthesia: интеграция с приоритетом голоса. Понятным новичку языком разбираем, как применять это в шортсах, UGC-рекламе и обучающих видео и чем оно отличается от HeyGen и Synthesia.

«Загрузил одно фото, написал текст… и человек на экране реально заговорил?»

 

До сих пор ElevenLabs была компанией, которая создаёт «голос».
А теперь она взялась и за «лицо».
Речь о функции Avatars (аватары): вписываешь сценарий и сразу получаешь видео, где говорящий ИИ-человек произносит твой текст.

Здравствуйте, это Sonetho. ⚡

 

Почти три года мы каждый день вдоль и поперёк изучаем ElevenLabs,
и сегодня мы принесли свежую функцию, официально представленную в середине июня 2026 года: Avatars (аватары).

 

Если сказать одной строкой.
Теперь прямо внутри ElevenLabs можно целиком собрать видео с говорящим человеком.
Загружаешь фото и создаёшь ИИ-персонажа, пишешь сценарий, выбираешь голос,
→ и этот персонаж произносит текст, точно попадая в артикуляцию губ.

 

Вспомните сервисы HeyGen и Synthesia (платформы для видео с говорящими ИИ-аватарами), о которых наверняка слышал любой создатель контента.
Так вот, на эту территорию вышел и «король голоса» ElevenLabs.
Сегодня разберём до конца и понятным новичку языком: что это такое, как этим пользоваться и чем оно отличается от уже знакомых сервисов!

 

👉 Начать работу с аватарами ElevenLabs →

 


🤔 Почему голосовая компания вдруг взялась за «лицо»?

Сначала простыми словами разберём термины.

 

💡 Блок терминов: понятно с первого раза

  • Avatars (аватары) = «ваш личный ИИ-персонаж», созданный из фото или текста. Создаёте один раз и затем многократно используете в разных видео.

  • Talking-head (говорящая голова) = привычный по YouTube и рекламе формат «говорящего лица», когда человек смотрит в камеру и рассказывает.

  • Липсинк (lip-sync) = технология, которая естественно подгоняет движение губ под голос.

  • ElevenCreative = пространство ElevenLabs для создания контента. Именно в его раздел «Image & Video (изображения и видео)» добавили эти аватары.

 

Главное оружие ElevenLabs, что бы кто ни говорил, это «голос».
В TTS (технология превращения текста в человеческий голос) и в клонировании голоса компания на мировом уровне.

 

Но те, кто делает видео, сталкивались вот с каким неудобством.

  • Сначала вытягивали голос в ElevenLabs,

  • затем заново загружали этот аудиофайл в другой сервис (например, HeyGen),

  • и уже там подгоняли движение губ… Эта передача файла туда-сюда была морокой.

 

Аватары решают весь этот этап в одном месте и за один заход.
И голос, и лицо, и попадание губ → всё внутри ElevenLabs сразу.
Дело не в том, что голосовая компания вдруг занялась лицами, а в идее бесшовно связать «от голоса до видео».

 


⚙️ Как это работает: этап «экспорта голоса» исчез целиком

В официальном анонсе аватаров есть одна ключевая фраза.
А именно: «Text to Speech встроен прямо в prompt island (экран ввода промпта)».

 

Звучит сложно, но смысл простой.

 

💡 Если по-простому

  • Это значит, что прямо там, где вы вводите сценарий (prompt island = панель ввода команд), встроена и функция генерации голоса.

  • Поэтому голос и видео с подогнанными губами (липсинк) создаются «сразу вместе».

  • Не нужно отдельно выгружать аудиофайл (export) и переносить его куда-то ещё, совсем не нужно.

 

И ещё один момент.
Сильная сторона в том, что ElevenLabs сама владеет «той частью, что создаёт голос».

 

Технология генерации голоса (voice model) и технология подгонки губ (lip-sync model) работают в одном доме вместе,
поэтому, как поясняет официальный анонс, синхронизация (совпадение по времени губ и звука) точнее, чем при подходе, когда аудио берут извне и подгоняют под него губы.
То самое еле заметное рассогласование, когда губы говорят «привет», а звук идёт «здравствуйте», заметно уменьшается.

 

📌 Заметка редакции: модель липсинка выбираю «я сам» ⚡
ElevenLabs собрала несколько сильных технологий липсинка в одном месте,
и на экране генерации позволяет самому выбрать нужную модель липсинка (есть и значение по умолчанию).
Главное: у каждой модели разное качество, максимальное разрешение и «кредиты в секунду». Всё это мы свели в таблицу с реальными замерами чуть ниже.

 


🎬 Пошагово: от фото до говорящего видео

Реальный процесс проще, чем кажется.
Если систематизировать по официальной инструкции, получается так.

 

Шаг 1: создаём аватар (свой ИИ-персонаж)
В разделе Image & Video в ElevenCreative в области Avatar нажимаем «New (создать новый)».
Дальше создаём персонажа одним из двух способов.

  • Загрузка фото: если загрузить 3–5 фотографий одного и того же человека с разных ракурсов, результат будет стабильнее.
    (Если загрузить только одно фото, результат может скакать от видео к видео.)

  • Описание текстом: можно обойтись без фото и создать персонажа, описав «такого-то человека» текстовым промптом.

Кстати, аватаром может быть не только человек, но и персонаж или животное. (Не обязательно человек.)

 

Шаг 2: даём имя и задаём базовый голос
Присваиваем аватару имя, при необходимости задаём базовый голос (default voice) и подтверждаем персонажа через «Create Avatar».
К каждому аватару заранее привязан базовый голос, но его можно сменить в любой момент.

 

Шаг 3: создаём говорящее видео
Выбираем созданный аватар и нажимаем «Create Lip Sync (создать липсинк)».
Затем ① выбираем стиль → ② выбираем голос (голос из библиотеки или ваш собственный клонированный) → ③ вводим сценарий → ④ нажимаем «Generate speech», создаём голос и прослушиваем.

 

Шаг 4: генерация
При желании добавляем небольшой визуальный промпт, задающий настроение видео, и нажимаем «Generate», готово.
Видео с подогнанными губами выходит вместе с голосом.

 

💡 Посмотрите на кредиты, прежде чем нажимать

  • Видео с аватаром использует существующую структуру кредитов «Image & Video».

  • Стоимость зависит от выбранной модели липсинка, разрешения и длительности видео.

  • К счастью, прежде чем вы нажмёте кнопку генерации, на экране заранее показывается предполагаемое число кредитов. Посмотрите и нажимайте!

  • (Поддерживаются разрешения 480p, 720p и 1080p, но по некоторым меркам на кредиты сильнее влияет «длительность видео», чем разрешение или соотношение сторон.)

 

Поэтому мы перенесли прямо с реального экрана выбора модели за июнь 2026 года значение кредитов в секунду для каждой модели липсинка. (Чем ниже число, тем дешевле.)

Модель липсинка

Кредитов в секунду

Особенности (официальное описание)

Veed Lipsync

41

Быстрый и недорогой видеолипсинк

Sync Lipsync 2 Pro

661

Студийный уровень для реального, анимационного и ИИ-контента

Creatify Aurora

848

Лучшее качество из изображения, направляемый липсинк

Sync 3

1,053

Визуальный интеллект, профессиональное качество

HeyGen Avatar 4 (новинка)

1,212

Выразительные движения, до 1080p

Veed Fabric

1,212

Реалистично из любого изображения, до 720p

OmniHuman 1.5

1,267

Реалистичный липсинк, поддержка нечеловеческих лиц

⚠️ Ловушка «в секунду»: стоимость растёт прямо пропорционально длине

  • Раз кредиты считаются в секунду, то чем длиннее видео, тем стремительнее растёт стоимость.

  • Пример) видео 30 секунд на Sync 3 (1,053/сек) → около 31,600 кредитов. За 1 минуту около 63,000 кредитов.

  • На плане Creator (около 120 000 кредитов в месяц) это уровень 3–4 роликов по 30 секунд. Честно говоря, негусто.

  • Зато недорогие модели вроде Veed Lipsync (41/сек) на 30 секунд берут около 1,230 кредитов, то есть за те же кредиты выходит в десятки раз больше.
    Это компромисс качество ↔ стоимость.

  • И учтите: кредиты на создание самого аватара (изображения) считаются отдельно. Указанные выше кредиты в секунду относятся к части «говорящего видео (липсинк)».

※ Кредиты в секунду измерены на экране выбора модели в июне 2026 года. Модели и ценовая политика меняются часто, поэтому обязательно проверяйте предполагаемое число кредитов на экране прямо перед генерацией.

 

👉 Попробовать создать аватар самому →

 


🪪 Создал один раз, пользуешься постоянно: устойчивая идентичность и варианты «стилей»

Настоящая сила аватаров в «повторном использовании».

 

Один раз созданный аватар получает «устойчивую идентичность (persistent identity)».
Проще говоря, однажды созданного персонажа можно снова и снова выводить в разных видео с тем же лицом.
Не будет такого, что от видео к видео лицо человека еле заметно меняется.

 

К этому добавляется функция «Styles (стили)».
Сохраняя ключевую идентичность того же человека, можно создавать варианты, в которых меняется следующее.

  • Ракурс камеры (анфас / профиль и т. д.)

  • Одежда (костюм / кэжуал и т. д.)

  • Фон и освещение

 

Например, создаёте одного «ведущего нашего бренда»,
и затем выводите его как одного и того же человека в варианте в костюме на фоне офиса, в кэжуал-варианте на улице, в варианте крупным планом.
Эти аватар и стили сохраняются сколько угодно генераций и переиспользуются в разных проектах.

 

📌 Почему это важно ⚡
Будь то YouTube-канал или реклама, чтобы зритель запомнил бренд, на экране должно стабильно появляться «одно и то же лицо».
Если каждый раз снимать заново или брать другого ИИ-персонажа, единый образ рушится.
Аватар даёт вам «актёра», которого создал один раз и потом используешь сколько угодно.

 


🔁 «Массовое производство» через Flows: штампуем UGC-рекламу за один заход

Дальше будет чуть продвинутее, но для маркетологов и UGC-авторов это просто находка.

 

💡 Всего два термина

  • Flows (флоу) = функция автоматизации, которая выстраивает задачи в цепочку и запускает их подряд, как автоматический конвейер.

  • UGC-реклама = реклама в стиле отзыва, «как будто снято самим пользователем». Сейчас это самый заходящий формат в Instagram, TikTok и шортсах.

 

На этот раз в Flows добавили новый «узел Avatar (блок аватара)».
Вставив его, можно подключить генерацию видео с аватаром к автоматическому конвейеру.

 

Если перенести официальный пример процесса, получается так.

  • ① Вводим бриф по продукту (краткое описание продукта)

  • ② ИИ генерирует сценарий

  • ③ Генерируется закадровый голос (озвучка)

  • ④ Создаётся видео, где аватар произносит этот сценарий

 

И всё это запускается пакетно (batch) сразу по каждому продукту, по каждому языку, по каждому хуку.
Здесь «хук (hook)» это вступительная фраза, цепляющая первые 3 секунды видео.

 

Например, меняя только хук на 5 вариантов («не знаешь это, теряешь деньги», «удели всего 3 секунды» и т. д.), можно за один заход наштамповать 5 вариантов рекламы.
Это идеально для задач вроде «какое вступление лучше заходит», когда нужно прогнать несколько версий для рекламы в шортсах и рилсах.
Ведь снимать заново каждый раз больше не надо.

 


⚖️ Чем это отличается от HeyGen и Synthesia? (честное сравнение)

«У меня уже есть HeyGen и Synthesia, зачем ElevenLabs?»
Закономерный вопрос. Разберём по сути. (Цены указаны по официальным и сравнительным данным и могут меняться в зависимости от промоакций и периода оплаты.)

 

Сервис

Сильная сторона / способ оплаты

Когда подходит

Аватары ElevenLabs

Голос это профиль → голос и лицо в одном месте. На основе кредитов

Качество голоса в приоритете, многоязычная озвучка

Synthesia

Оплата по минутам, легко считать бюджет. Хорошие отзывы о реалистичности аватаров

Корпоративное обучение, внутренние видео

HeyGen

На основе кредитов. Силён в многоязычном переводе готовых видео

Маркетинг, перевод контента для зарубежья

 

Если свести ключевое отличие в одну строку, выйдет так.

 

ElevenLabs это «интеграция с приоритетом голоса».
Компания, у которой голос изначально мирового уровня, прикрепила к этому голосу лицо (липсинк) и позволила собирать всё на одном экране за один заход.
Сильная сторона в том, что не нужно гонять аудио туда-сюда, а синхронизация голоса и губ точнее.

 

Кратко о порядке цен. (По состоянию на июнь 2026 года.)

  • HeyGen: на основе кредитов. Для флагманской функции аватаров (Avatar IV) это около $1 в минуту (план Creator).

  • Synthesia: подписка по минутам. В пересчёте на годовую оплату около $1.8–2.1 в минуту.

  • Аватары ElevenLabs: в зависимости от выбранной модели липсинка разброс большой, примерно $0.45 (дёшево) – $13.8 (премиум) в минуту (см. таблицу кредитов в секунду выше).

 

💰 Так что же в итоге дешевле? Во второй части мы посчитали всё до конца
Честно говоря, если делать много и в высоком качестве, специализированные платформы (HeyGen, Synthesia) могут выйти дешевле в пересчёте на минуту,
а для редкого, небольшого объёма и единого рабочего процесса выгоднее ElevenLabs.
Мы до конца разобрали точку безубыточности, которая зависит от того, «сколько минут в месяц вы делаете», по таблице реальной стоимости за минуту.
[Битва за стоимость аватаров] Прямая подписка vs ElevenLabs: смотрим, кто реально дешевле →

 

🚨 Честно: что пока остаётся неясным
Максимальная длина видео, которую можно сделать за один заход, и кредиты на саму генерацию аватара (изображения) зависят от модели и настроек, так что чётких цифр не раскрыто.
(Максимальное разрешение тоже разное у разных моделей. Как в таблице выше, есть модели до 720p и модели до 1080p.)
Зато точная стоимость показывается на экране прямо перед генерацией как предполагаемое число кредитов, на это и ориентируйтесь, прежде чем нажать.
Кроме того, на момент запуска API (внешняя интеграция) не предоставляется, его обещают добавить позже.

 


🙋 Так кому же это пригодится?

На наш взгляд, особенно мощно это для таких людей.

 

  • Авторам шортсов и рилсов: вести канал с единым «ИИ-актёром» без необходимости светить своё лицо.

  • UGC-рекламщикам и перформанс-маркетологам: массово штамповать варианты рекламы, меняя только хук, легко делать A/B-тесты.

  • Авторам обучающего контента: вести серию уроков с «одним и тем же преподавателем» и масштабировать по предметам и языкам.

  • Брендам и SMM-специалистам: стабильно выпускать контент для соцсетей без съёмок каждый раз.

  • Тем, кому нужны многоязычные пояснительные видео: создавать локализованные видео в связке с многоязычной озвучкой ElevenLabs.

 

А вот тем, кто хочет делать видео совсем бесплатно, пока есть чем огорчиться.
Аватары (генерация видео) доступны только на платных планах (на бесплатном плане генерация видео недоступна).
К счастью, сейчас функция доступна на всех платных планах ElevenCreative.

 


❓ Частые вопросы

 

Q. Можно ли сразу создать аватар, имея всего одно фото?
Технически создать можно и с одного фото, а можно вообще без фото, описав текстом (текстовым промптом).
Но официальная инструкция рекомендует 3–5 фотографий одного человека с разных ракурсов.
С одним фото лицо может выходить несогласованным от видео к видео. Хотите стабильный результат, загружайте несколько снимков.

 

Q. Можно ли создать говорящее видео с аватаром на бесплатном плане?
Нет. Генерация видео с аватаром доступна только на платных планах (на бесплатном плане генерация видео ограничена).
Зато она работает на всех платных планах ElevenCreative, а стоимость списывается с существующих кредитов «Image & Video».
Она зависит от выбранной модели, разрешения и длительности видео, а предполагаемое число кредитов показывается на экране перед генерацией, так что решайте, посмотрев на него.

 

Q. Есть ли причина выбрать аватары ElevenLabs вместо HeyGen или Synthesia?
Главное отличие это «голос».
У ElevenLabs профильное направление это TTS и клонирование голоса, поэтому сильны качество голоса и многоязычная озвучка.
А прикрепив к этому лицо (липсинк), компания позволяет создавать видео в одном месте за один заход, не перенося аудио в другой сервис, в этом и ключевая сила.
Это привлекательно, если для вас качество голоса в приоритете или вы часто делаете многоязычные видео.
(И наоборот, если важно вести бюджет по минутам, хороша Synthesia, а если основная задача это многоязычный перевод готовых видео, хорош и HeyGen.)

 

Q. Можно ли использовать одного и того же человека постоянно, чтобы лицо не менялось от видео к видео?
Да, в этом и суть аватара.
Один раз созданный аватар сохраняет устойчивую идентичность, поэтому независимо от числа генераций он появляется в разных видео с тем же лицом.
А с функцией «Styles (стили)» можно делать варианты, меняя только ракурс, одежду и фон, так что при сохранении идентичности возможны разные постановки.

 


🎁 В завершение

Снова сведём сегодняшнее главное.

 

  • Avatars = новая функция, где ИИ-персонаж, созданный из фото или текста, выходит в видео, произнося сценарий с попаданием в губы.

  • Голос и подгонка губ делаются на одном экране за один заход → не нужно гонять аудио, синхронизация точнее.

  • Один раз созданный аватар можно постоянно переиспользовать, а через Styles менять ракурс, одежду и фон.

  • Через узел Avatar в Flows массово штамповать UGC-рекламу и шортсы по хукам и языкам.

  • Часть цифр (цены, длина, модель автовыбора и т. д.) не раскрыта → проверяйте кредиты, показанные перед генерацией.

 

«Король голоса» теперь держит в руках и «лицо».
Открылась эпоха, где путь от голоса до видео идёт единым потоком.

 

Если вы на платном плане, прямо сегодня загрузите несколько фото
и создайте своего ИИ-актёра.
Как одна строка сценария превращается в «говорящее видео», вы почувствуете за минуту, стоит лишь попробовать!

 

👉 Начать работу с аватарами ElevenLabs →

 

В следующей статье снова вернёмся с ещё более полезными лайфхаками.
Это была Sonetho. ⚡