Аватары ElevenLabs: одно фото + сценарий, и видео с «говорящим ИИ-человеком» готово ⚡

Q: Можно ли создать говорящее видео с аватаром на бесплатном плане?

Нет. Генерация видео с аватаром доступна только на платных планах (на бесплатном плане генерация видео ограничена). Зато она работает на всех платных планах ElevenCreative, а стоимость списывается с существующих кредитов «Image & Video». Она зависит от выбранной модели, разрешения и длительности видео, а предполагаемое число кредитов показывается на экране перед генерацией , так что решайте, посмотрев на него.

Q: Есть ли причина выбрать аватары ElevenLabs вместо HeyGen или Synthesia?

Главное отличие это «голос» . У ElevenLabs профильное направление это TTS и клонирование голоса, поэтому сильны качество голоса и многоязычная озвучка. А прикрепив к этому лицо (липсинк), компания позволяет создавать видео в одном месте за один заход, не перенося аудио в другой сервис , в этом и ключевая сила. Это привлекательно, если для вас качество голоса в приоритете или вы часто делаете многоязычные видео. (И наоборот, если важно вести бюджет по минутам, хороша Synthesia, а если основная задача это многоязычный перевод готовых видео, хорош и HeyGen.)

«Загрузил одно фото, написал текст… и человек на экране реально заговорил?»

До сих пор ElevenLabs была компанией, которая создаёт «голос».
А теперь она взялась и за «лицо».
Речь о функции Avatars (аватары): вписываешь сценарий и сразу получаешь видео, где говорящий ИИ-человек произносит твой текст.

Здравствуйте, это Sonetho. ⚡

Почти три года мы каждый день вдоль и поперёк изучаем ElevenLabs,
и сегодня мы принесли свежую функцию, официально представленную в середине июня 2026 года: Avatars (аватары).

Если сказать одной строкой.
Теперь прямо внутри ElevenLabs можно целиком собрать видео с говорящим человеком.
Загружаешь фото и создаёшь ИИ-персонажа, пишешь сценарий, выбираешь голос,
→ и этот персонаж произносит текст, точно попадая в артикуляцию губ.

Вспомните сервисы HeyGen и Synthesia (платформы для видео с говорящими ИИ-аватарами), о которых наверняка слышал любой создатель контента.
Так вот, на эту территорию вышел и «король голоса» ElevenLabs.
Сегодня разберём до конца и понятным новичку языком: что это такое, как этим пользоваться и чем оно отличается от уже знакомых сервисов!

👉 Начать работу с аватарами ElevenLabs →

🤔 Почему голосовая компания вдруг взялась за «лицо»?

Сначала простыми словами разберём термины.

💡 Блок терминов: понятно с первого раза

Avatars (аватары) = «ваш личный ИИ-персонаж», созданный из фото или текста. Создаёте один раз и затем многократно используете в разных видео.
Talking-head (говорящая голова) = привычный по YouTube и рекламе формат «говорящего лица», когда человек смотрит в камеру и рассказывает.
Липсинк (lip-sync) = технология, которая естественно подгоняет движение губ под голос.
ElevenCreative = пространство ElevenLabs для создания контента. Именно в его раздел «Image & Video (изображения и видео)» добавили эти аватары.

Главное оружие ElevenLabs, что бы кто ни говорил, это «голос».
В TTS (технология превращения текста в человеческий голос) и в клонировании голоса компания на мировом уровне.

Но те, кто делает видео, сталкивались вот с каким неудобством.

Сначала вытягивали голос в ElevenLabs,
затем заново загружали этот аудиофайл в другой сервис (например, HeyGen),
и уже там подгоняли движение губ… Эта передача файла туда-сюда была морокой.

Аватары решают весь этот этап в одном месте и за один заход.
И голос, и лицо, и попадание губ → всё внутри ElevenLabs сразу.
Дело не в том, что голосовая компания вдруг занялась лицами, а в идее бесшовно связать «от голоса до видео».

⚙️ Как это работает: этап «экспорта голоса» исчез целиком

В официальном анонсе аватаров есть одна ключевая фраза.
А именно: «Text to Speech встроен прямо в prompt island (экран ввода промпта)».

Звучит сложно, но смысл простой.

💡 Если по-простому

Это значит, что прямо там, где вы вводите сценарий (prompt island = панель ввода команд), встроена и функция генерации голоса.
Поэтому голос и видео с подогнанными губами (липсинк) создаются «сразу вместе».
Не нужно отдельно выгружать аудиофайл (export) и переносить его куда-то ещё, совсем не нужно.

И ещё один момент.
Сильная сторона в том, что ElevenLabs сама владеет «той частью, что создаёт голос».

Технология генерации голоса (voice model) и технология подгонки губ (lip-sync model) работают в одном доме вместе,
поэтому, как поясняет официальный анонс, синхронизация (совпадение по времени губ и звука) точнее, чем при подходе, когда аудио берут извне и подгоняют под него губы.
То самое еле заметное рассогласование, когда губы говорят «привет», а звук идёт «здравствуйте», заметно уменьшается.

📌 Заметка редакции: модель липсинка выбираю «я сам» ⚡
ElevenLabs собрала несколько сильных технологий липсинка в одном месте,
и на экране генерации позволяет самому выбрать нужную модель липсинка (есть и значение по умолчанию).
Главное: у каждой модели разное качество, максимальное разрешение и «кредиты в секунду». Всё это мы свели в таблицу с реальными замерами чуть ниже.

🎬 Пошагово: от фото до говорящего видео

Реальный процесс проще, чем кажется.
Если систематизировать по официальной инструкции, получается так.

Шаг 1: создаём аватар (свой ИИ-персонаж)
В разделе Image & Video в ElevenCreative в области Avatar нажимаем «New (создать новый)».
Дальше создаём персонажа одним из двух способов.

Загрузка фото: если загрузить 3–5 фотографий одного и того же человека с разных ракурсов, результат будет стабильнее.
(Если загрузить только одно фото, результат может скакать от видео к видео.)
Описание текстом: можно обойтись без фото и создать персонажа, описав «такого-то человека» текстовым промптом.

Кстати, аватаром может быть не только человек, но и персонаж или животное. (Не обязательно человек.)

Шаг 2: даём имя и задаём базовый голос
Присваиваем аватару имя, при необходимости задаём базовый голос (default voice) и подтверждаем персонажа через «Create Avatar».
К каждому аватару заранее привязан базовый голос, но его можно сменить в любой момент.

Шаг 3: создаём говорящее видео
Выбираем созданный аватар и нажимаем «Create Lip Sync (создать липсинк)».
Затем ① выбираем стиль → ② выбираем голос (голос из библиотеки или ваш собственный клонированный) → ③ вводим сценарий → ④ нажимаем «Generate speech», создаём голос и прослушиваем.

Шаг 4: генерация
При желании добавляем небольшой визуальный промпт, задающий настроение видео, и нажимаем «Generate», готово.
Видео с подогнанными губами выходит вместе с голосом.

💡 Посмотрите на кредиты, прежде чем нажимать

Видео с аватаром использует существующую структуру кредитов «Image & Video».
Стоимость зависит от выбранной модели липсинка, разрешения и длительности видео.
К счастью, прежде чем вы нажмёте кнопку генерации, на экране заранее показывается предполагаемое число кредитов. Посмотрите и нажимайте!
(Поддерживаются разрешения 480p, 720p и 1080p, но по некоторым меркам на кредиты сильнее влияет «длительность видео», чем разрешение или соотношение сторон.)

Поэтому мы перенесли прямо с реального экрана выбора модели за июнь 2026 года значение кредитов в секунду для каждой модели липсинка. (Чем ниже число, тем дешевле.)

Модель липсинка	Кредитов в секунду	Особенности (официальное описание)
Veed Lipsync	41	Быстрый и недорогой видеолипсинк
Sync Lipsync 2 Pro	661	Студийный уровень для реального, анимационного и ИИ-контента
Creatify Aurora	848	Лучшее качество из изображения, направляемый липсинк
Sync 3	1,053	Визуальный интеллект, профессиональное качество
HeyGen Avatar 4 (новинка)	1,212	Выразительные движения, до 1080p
Veed Fabric	1,212	Реалистично из любого изображения, до 720p
OmniHuman 1.5	1,267	Реалистичный липсинк, поддержка нечеловеческих лиц

⚠️ Ловушка «в секунду»: стоимость растёт прямо пропорционально длине

Раз кредиты считаются в секунду, то чем длиннее видео, тем стремительнее растёт стоимость.
Пример) видео 30 секунд на Sync 3 (1,053/сек) → около 31,600 кредитов. За 1 минуту около 63,000 кредитов.
На плане Creator (около 120 000 кредитов в месяц) это уровень 3–4 роликов по 30 секунд. Честно говоря, негусто.
Зато недорогие модели вроде Veed Lipsync (41/сек) на 30 секунд берут около 1,230 кредитов, то есть за те же кредиты выходит в десятки раз больше.
Это компромисс качество ↔ стоимость.
И учтите: кредиты на создание самого аватара (изображения) считаются отдельно. Указанные выше кредиты в секунду относятся к части «говорящего видео (липсинк)».

※ Кредиты в секунду измерены на экране выбора модели в июне 2026 года. Модели и ценовая политика меняются часто, поэтому обязательно проверяйте предполагаемое число кредитов на экране прямо перед генерацией.

👉 Попробовать создать аватар самому →

🪪 Создал один раз, пользуешься постоянно: устойчивая идентичность и варианты «стилей»

Настоящая сила аватаров в «повторном использовании».

Один раз созданный аватар получает «устойчивую идентичность (persistent identity)».
Проще говоря, однажды созданного персонажа можно снова и снова выводить в разных видео с тем же лицом.
Не будет такого, что от видео к видео лицо человека еле заметно меняется.

К этому добавляется функция «Styles (стили)».
Сохраняя ключевую идентичность того же человека, можно создавать варианты, в которых меняется следующее.

Ракурс камеры (анфас / профиль и т. д.)
Одежда (костюм / кэжуал и т. д.)
Фон и освещение

Например, создаёте одного «ведущего нашего бренда»,
и затем выводите его как одного и того же человека в варианте в костюме на фоне офиса, в кэжуал-варианте на улице, в варианте крупным планом.
Эти аватар и стили сохраняются сколько угодно генераций и переиспользуются в разных проектах.

📌 Почему это важно ⚡
Будь то YouTube-канал или реклама, чтобы зритель запомнил бренд, на экране должно стабильно появляться «одно и то же лицо».
Если каждый раз снимать заново или брать другого ИИ-персонажа, единый образ рушится.
Аватар даёт вам «актёра», которого создал один раз и потом используешь сколько угодно.

🔁 «Массовое производство» через Flows: штампуем UGC-рекламу за один заход

Дальше будет чуть продвинутее, но для маркетологов и UGC-авторов это просто находка.

💡 Всего два термина

Flows (флоу) = функция автоматизации, которая выстраивает задачи в цепочку и запускает их подряд, как автоматический конвейер.
UGC-реклама = реклама в стиле отзыва, «как будто снято самим пользователем». Сейчас это самый заходящий формат в Instagram, TikTok и шортсах.

На этот раз в Flows добавили новый «узел Avatar (блок аватара)».
Вставив его, можно подключить генерацию видео с аватаром к автоматическому конвейеру.

Если перенести официальный пример процесса, получается так.

① Вводим бриф по продукту (краткое описание продукта)
② ИИ генерирует сценарий
③ Генерируется закадровый голос (озвучка)
④ Создаётся видео, где аватар произносит этот сценарий

И всё это запускается пакетно (batch) сразу по каждому продукту, по каждому языку, по каждому хуку.
Здесь «хук (hook)» это вступительная фраза, цепляющая первые 3 секунды видео.

Например, меняя только хук на 5 вариантов («не знаешь это, теряешь деньги», «удели всего 3 секунды» и т. д.), можно за один заход наштамповать 5 вариантов рекламы.
Это идеально для задач вроде «какое вступление лучше заходит», когда нужно прогнать несколько версий для рекламы в шортсах и рилсах.
Ведь снимать заново каждый раз больше не надо.

⚖️ Чем это отличается от HeyGen и Synthesia? (честное сравнение)

«У меня уже есть HeyGen и Synthesia, зачем ElevenLabs?»
Закономерный вопрос. Разберём по сути. (Цены указаны по официальным и сравнительным данным и могут меняться в зависимости от промоакций и периода оплаты.)

Сервис	Сильная сторона / способ оплаты	Когда подходит
Аватары ElevenLabs	Голос это профиль → голос и лицо в одном месте. На основе кредитов	Качество голоса в приоритете, многоязычная озвучка
Synthesia	Оплата по минутам, легко считать бюджет. Хорошие отзывы о реалистичности аватаров	Корпоративное обучение, внутренние видео
HeyGen	На основе кредитов. Силён в многоязычном переводе готовых видео	Маркетинг, перевод контента для зарубежья

Если свести ключевое отличие в одну строку, выйдет так.

ElevenLabs это «интеграция с приоритетом голоса».
Компания, у которой голос изначально мирового уровня, прикрепила к этому голосу лицо (липсинк) и позволила собирать всё на одном экране за один заход.
Сильная сторона в том, что не нужно гонять аудио туда-сюда, а синхронизация голоса и губ точнее.

Кратко о порядке цен. (По состоянию на июнь 2026 года.)

HeyGen: на основе кредитов. Для флагманской функции аватаров (Avatar IV) это около $1 в минуту (план Creator).
Synthesia: подписка по минутам. В пересчёте на годовую оплату около $1.8–2.1 в минуту.
Аватары ElevenLabs: в зависимости от выбранной модели липсинка разброс большой, примерно $0.45 (дёшево) – $13.8 (премиум) в минуту (см. таблицу кредитов в секунду выше).

💰 Так что же в итоге дешевле? Во второй части мы посчитали всё до конца
Честно говоря, если делать много и в высоком качестве, специализированные платформы (HeyGen, Synthesia) могут выйти дешевле в пересчёте на минуту,
а для редкого, небольшого объёма и единого рабочего процесса выгоднее ElevenLabs.
Мы до конца разобрали точку безубыточности, которая зависит от того, «сколько минут в месяц вы делаете», по таблице реальной стоимости за минуту.
→ [Битва за стоимость аватаров] Прямая подписка vs ElevenLabs: смотрим, кто реально дешевле →

🚨 Честно: что пока остаётся неясным
Максимальная длина видео, которую можно сделать за один заход, и кредиты на саму генерацию аватара (изображения) зависят от модели и настроек, так что чётких цифр не раскрыто.
(Максимальное разрешение тоже разное у разных моделей. Как в таблице выше, есть модели до 720p и модели до 1080p.)
Зато точная стоимость показывается на экране прямо перед генерацией как предполагаемое число кредитов, на это и ориентируйтесь, прежде чем нажать.
Кроме того, на момент запуска API (внешняя интеграция) не предоставляется, его обещают добавить позже.

🙋 Так кому же это пригодится?

На наш взгляд, особенно мощно это для таких людей.

Авторам шортсов и рилсов: вести канал с единым «ИИ-актёром» без необходимости светить своё лицо.
UGC-рекламщикам и перформанс-маркетологам: массово штамповать варианты рекламы, меняя только хук, легко делать A/B-тесты.
Авторам обучающего контента: вести серию уроков с «одним и тем же преподавателем» и масштабировать по предметам и языкам.
Брендам и SMM-специалистам: стабильно выпускать контент для соцсетей без съёмок каждый раз.
Тем, кому нужны многоязычные пояснительные видео: создавать локализованные видео в связке с многоязычной озвучкой ElevenLabs.

А вот тем, кто хочет делать видео совсем бесплатно, пока есть чем огорчиться.
Аватары (генерация видео) доступны только на платных планах (на бесплатном плане генерация видео недоступна).
К счастью, сейчас функция доступна на всех платных планах ElevenCreative.

❓ Частые вопросы

Q. Можно ли сразу создать аватар, имея всего одно фото?
Технически создать можно и с одного фото, а можно вообще без фото, описав текстом (текстовым промптом).
Но официальная инструкция рекомендует 3–5 фотографий одного человека с разных ракурсов.
С одним фото лицо может выходить несогласованным от видео к видео. Хотите стабильный результат, загружайте несколько снимков.

Q. Можно ли создать говорящее видео с аватаром на бесплатном плане?
Нет. Генерация видео с аватаром доступна только на платных планах (на бесплатном плане генерация видео ограничена).
Зато она работает на всех платных планах ElevenCreative, а стоимость списывается с существующих кредитов «Image & Video».
Она зависит от выбранной модели, разрешения и длительности видео, а предполагаемое число кредитов показывается на экране перед генерацией, так что решайте, посмотрев на него.

Q. Есть ли причина выбрать аватары ElevenLabs вместо HeyGen или Synthesia?
Главное отличие это «голос».
У ElevenLabs профильное направление это TTS и клонирование голоса, поэтому сильны качество голоса и многоязычная озвучка.
А прикрепив к этому лицо (липсинк), компания позволяет создавать видео в одном месте за один заход, не перенося аудио в другой сервис, в этом и ключевая сила.
Это привлекательно, если для вас качество голоса в приоритете или вы часто делаете многоязычные видео.
(И наоборот, если важно вести бюджет по минутам, хороша Synthesia, а если основная задача это многоязычный перевод готовых видео, хорош и HeyGen.)

Q. Можно ли использовать одного и того же человека постоянно, чтобы лицо не менялось от видео к видео?
Да, в этом и суть аватара.
Один раз созданный аватар сохраняет устойчивую идентичность, поэтому независимо от числа генераций он появляется в разных видео с тем же лицом.
А с функцией «Styles (стили)» можно делать варианты, меняя только ракурс, одежду и фон, так что при сохранении идентичности возможны разные постановки.

🎁 В завершение

Снова сведём сегодняшнее главное.

Avatars = новая функция, где ИИ-персонаж, созданный из фото или текста, выходит в видео, произнося сценарий с попаданием в губы.
Голос и подгонка губ делаются на одном экране за один заход → не нужно гонять аудио, синхронизация точнее.
Один раз созданный аватар можно постоянно переиспользовать, а через Styles менять ракурс, одежду и фон.
Через узел Avatar в Flows массово штамповать UGC-рекламу и шортсы по хукам и языкам.
Часть цифр (цены, длина, модель автовыбора и т. д.) не раскрыта → проверяйте кредиты, показанные перед генерацией.

«Король голоса» теперь держит в руках и «лицо».
Открылась эпоха, где путь от голоса до видео идёт единым потоком.

Если вы на платном плане, прямо сегодня загрузите несколько фото
и создайте своего ИИ-актёра.
Как одна строка сценария превращается в «говорящее видео», вы почувствуете за минуту, стоит лишь попробовать!

👉 Начать работу с аватарами ElevenLabs →

В следующей статье снова вернёмся с ещё более полезными лайфхаками.
Это была Sonetho. ⚡