Avatars da ElevenLabs: só uma foto + roteiro e sai um vídeo de uma 'pessoa de IA falando' num passe de mágica ⚡

Q: Dá para fazer vídeo de avatar falando também no plano gratuito?

Não. A geração de vídeo com avatar só é possível nos planos pagos (no plano gratuito a geração de vídeo é restrita). Mas dá para usar em todos os planos pagos do ElevenCreative, e o custo é descontado dos créditos de 'Image & Video' que já existem. Varia conforme o modelo, a resolução e a duração escolhidos, e como os créditos estimados aparecem na tela antes de gerar , é só olhar e decidir.

Q: Existe motivo para usar o Avatars da ElevenLabs no lugar do HeyGen ou do Synthesia?

A maior diferença é a 'voz' . A ElevenLabs tem TTS e voice clone como especialidade original, então é forte em qualidade de voz e em vozes multilíngues. Some a isso o rosto (lip-sync) e o trunfo central é fazer o vídeo de uma vez, em um só lugar, sem mover o áudio para outro serviço . Se qualidade de voz é prioridade máxima ou se você faz vídeos multilíngues com frequência, é atraente. (Por outro lado, se gerir orçamento por minuto é importante, o Synthesia; se o foco principal é traduzir vídeos existentes para vários idiomas, o HeyGen também são boas escolhas.)

"Subi uma foto, escrevi só o roteiro… e a pessoa começou a falar de verdade?"

Até agora, a ElevenLabs era a empresa que criava 'vozes'.
Mas desta vez ela começou a criar até o 'rosto'.
É a história do Avatars, em que você só coloca o roteiro e sai um vídeo de uma pessoa de IA falando, tudo de uma vez.

Olá, aqui é o Sonetho. ⚡

Depois de usar a ElevenLabs todos os dias há quase 3 anos,
chegamos hoje com um recurso novinho, anunciado oficialmente em meados de junho de 2026: o Avatars.

Resumindo em uma linha:
agora, dentro da própria ElevenLabs, dá para criar o 'vídeo de uma pessoa falando' do começo ao fim.
Você sobe uma foto para criar a pessoa de IA, escreve o roteiro e escolhe a voz
→ e sai um vídeo em que essa pessoa fala com o movimento da boca perfeitamente sincronizado.

Se você já ouviu falar de HeyGen e Synthesia (serviços de vídeo com avatares de IA que falam), é exatamente essa pegada.
É nesse território que a ElevenLabs, a 'rainha das vozes', acabou de entrar.
Hoje vou destrinchar até o fim, no nível de quem está começando: o que é isso, como usar e o que muda em relação aos serviços que já existem!

👉 Começar com o Avatars da ElevenLabs →

🤔 Por que uma empresa de voz resolveu fazer 'rosto'?

Primeiro, vamos descomplicar os termos.

💡 Caixa de termos para entender de primeira

Avatars = a 'sua pessoa de IA', criada a partir de fotos ou de um texto. Depois de criar uma vez, você reaproveita em vários vídeos.
Talking-head = aquele vídeo da 'pessoa de rosto falando' olhando para a câmera, comum em YouTube e anúncios.
Lip-sync (sincronização labial) = a tecnologia que ajusta o movimento da boca de forma natural, acompanhando a voz.
ElevenCreative = o espaço de criação de conteúdo da ElevenLabs. É dentro dele, no menu 'Image & Video', que o novo Avatars chegou.

A verdadeira arma da ElevenLabs, digam o que disserem, é a 'voz'.
Em TTS (tecnologia que transforma texto em voz humana) e em voice clone (clonagem de voz), ela é referência mundial.

Só que quem faz vídeo enfrentava o seguinte incômodo.

Gerar a voz na ElevenLabs,
subir esse arquivo de áudio em outro serviço (HeyGen e afins),
e lá ajustar o movimento da boca… esse vaivém de arquivos (o tal handoff) era chato.

O Avatars resolve essa etapa tudo em um só lugar.
Voz, rosto e sincronia da boca → tudo de uma vez, dentro da ElevenLabs.
Não é que a empresa de voz passou a fazer rosto: a ideia é conectar 'da voz ao vídeo' sem interrupções.

⚙️ Como funciona: a etapa de 'exportar o áudio' sumiu por completo

Há uma frase central neste anúncio do Avatars.
É justamente a de que "o Text to Speech foi embutido direto na prompt island (tela do prompt)".

Parece difícil, mas o sentido é simples.

💡 Falando fácil

No mesmo lugar onde você digita o roteiro (prompt island = o painel onde você escreve os comandos) já está embutido o recurso de gerar a voz.
Por isso, a voz e o vídeo com a boca sincronizada (lip-sync) são gerados 'juntos, de uma vez'.
Não precisa de jeito nenhum exportar o arquivo de áudio à parte para levar a outro lugar.

E tem mais um detalhe.
O fato de a ElevenLabs ter a 'parte que gera a voz' em casa joga a favor como diferencial.

Como a tecnologia que gera a voz (voice model) e a que sincroniza a boca (lip-sync model) rodam juntas, sob o mesmo teto,
o anúncio oficial explica que a sincronia (o timing entre boca e som) fica mais precisa do que no método de trazer áudio de fora para ajustar a boca.
Aquele descompasso sutil de a boca dizer "oi" e o som sair "tudo bem" diminui.

📌 Nota do editor: o modelo de lip-sync 'eu' escolho ⚡
A ElevenLabs reuniu várias tecnologias excelentes de lip-sync em um só lugar
e deixou que você escolha diretamente o modelo de lip-sync que quiser na tela de geração (também oferece um padrão).
O ponto-chave é que cada modelo tem qualidade, resolução máxima e 'crédito por segundo' diferentes. Organizei tudo na tabela real logo abaixo.

🎬 Passo a passo: da foto ao vídeo falando, etapa por etapa

O fluxo de uso na prática é mais simples do que parece.
Organizando com base no guia oficial, fica assim.

Etapa 1: criar o avatar (a sua pessoa de IA)
No menu Image & Video do ElevenCreative, na área de Avatar, clique em 'New' (criar novo).
Em seguida, crie a pessoa de uma destas duas formas.

Upload de fotos: subir de 3 a 5 fotos da mesma pessoa em ângulos diferentes deixa o resultado mais estável.
(Subir só 1 foto pode dar resultados irregulares.)
Descrever por texto: sem foto, dá para criar descrevendo "uma pessoa assim" por prompt de texto.

Vale lembrar que não só pessoas, mas também personagens e animais podem virar avatar. (Não precisa ser humano.)

Etapa 2: dar um nome e definir a voz padrão
Dê um nome ao avatar, defina a voz padrão (default voice) se quiser e confirme a pessoa em 'Create Avatar'.
Cada avatar já vem com uma voz padrão, mas você pode trocar a qualquer momento.

Etapa 3: criar o vídeo falando
Escolha o avatar criado e clique em 'Create Lip Sync' (criar lip-sync).
Então: ① escolha o estilo → ② escolha a voz (voz da biblioteca ou uma voz que você clonou) → ③ digite o roteiro → ④ gere a voz em 'Generate speech' e ouça a prévia.

Etapa 4: gerar
Se quiser, acrescente um leve prompt visual para definir o clima do vídeo e clique em 'Generate'. Pronto.
O vídeo com a boca sincronizada sai junto com a voz.

💡 Veja os créditos antes de clicar

O vídeo com avatar segue a estrutura de créditos do 'Image & Video' que já existe.
O custo varia conforme o modelo de lip-sync escolhido, a resolução de saída e a duração do vídeo.
Por sorte, antes de clicar no botão de gerar, a tela mostra os créditos estimados. Olhe e só depois clique!
(A resolução suporta 480p, 720p e 1080p, mas em alguns casos é a 'duração do vídeo' que pesa mais nos créditos do que a resolução ou a proporção de tela.)

Por isso, trouxemos direto da tela real de seleção de modelos de junho de 2026 o crédito por segundo de cada modelo de lip-sync. (Quanto menor o número, mais barato.)

Modelo de lip-sync	Crédito por segundo	Característica (descrição oficial)
Veed Lipsync	41	Lip-sync de vídeo rápido e barato
Sync Lipsync 2 Pro	661	Nível de estúdio para conteúdo real, animado e de IA
Creatify Aurora	848	Máxima qualidade a partir de imagem, lip-sync guiado
Sync 3	1,053	Inteligência visual, qualidade profissional
HeyGen Avatar 4 (novo)	1,212	Movimento expressivo, até 1080p
Veed Fabric	1,212	Realista com qualquer imagem, até 720p
OmniHuman 1.5	1,267	Lip-sync realista, suporta rostos não humanos

⚠️ A armadilha do 'por segundo': é proporcional à duração

Como é crédito por segundo, quanto mais longo o vídeo, mais o custo dispara.
Ex.) com o Sync 3 (1.053/seg), um vídeo de 30 segundos → cerca de 31.600 créditos. Com 1 minuto, cerca de 63.000 créditos.
No plano Creator (cerca de 120 mil créditos por mês), dá para fazer uns 3 a 4 vídeos de 30 segundos. Sinceramente, não é folgado.
Em compensação, modelos baratos como o Veed Lipsync (41/seg) custam cerca de 1.230 créditos em 30 segundos, ou seja, dezenas de vezes mais vídeos com o mesmo crédito.
É o trade-off entre qualidade e custo.
E o crédito para gerar o avatar (a imagem) é à parte. O crédito por segundo acima é o custo da parte do 'vídeo falando (lip-sync)'.

※ O crédito por segundo é o valor real medido na tela de seleção de modelos de junho de 2026. Os modelos e a política de preços mudam o tempo todo, então confira sempre os créditos estimados na tela, logo antes de gerar.

👉 Criar seu próprio avatar →

🪪 Cria uma vez e usa para sempre: identidade persistente e variações de 'estilo'

O verdadeiro trunfo do avatar é o 'reaproveitamento'.

Um avatar criado uma vez ganha uma 'identidade fixa (persistent identity)'.
Em outras palavras, dá para fazer aquela pessoa criada uma vez aparecer com o mesmo rosto em vários vídeos.
Sem aquele perrengue de o rosto mudar sutilmente de um vídeo para outro.

A isso se soma o recurso 'Styles' (estilos).
Mantendo a identidade central da mesma pessoa intacta, dá para criar variações mudando o seguinte.

Ângulo da câmera (frontal, de lado, etc.)
Roupa (social, casual, etc.)
Cenário e iluminação

Por exemplo, você cria um único 'apresentador da nossa marca'
e gera versões dele com terno em cenário de escritório, casual ao ar livre e em close, tudo com a mesma pessoa.
Esse avatar e os estilos se mantêm independentemente de quantas vezes você gerar e podem ser reaproveitados em vários projetos.

📌 Por que isso importa ⚡
Seja em um canal do YouTube, seja em anúncios, é a presença constante do 'mesmo rosto' que faz o público lembrar da marca.
Filmar toda vez ou usar uma pessoa de IA diferente a cada vez quebra a consistência.
O avatar te dá um apresentador para 'criar uma vez e usar pela vida inteira'.

🔁 'Produção em massa' com Flows: gerar anúncios UGC de uma vez só

A partir daqui é um pouco mais avançado, mas para quem é profissional de marketing ou criador de UGC, é ouro.

💡 Só dois termos

Flows = recurso de automação que executa tarefas em sequência, como uma esteira automática.
Anúncio UGC = anúncio em estilo depoimento, com cara de 'gravado pelo próprio usuário'. É o formato que mais funciona hoje no Instagram, no TikTok e nos Reels/Shorts.

Desta vez, um 'nó de Avatar (bloco de avatar)' novo foi adicionado ao Flows.
Encaixando ele, dá para conectar a geração de vídeos com avatar a um pipeline automático.

Copiando o fluxo do exemplo oficial, fica assim.

① inserir o brief do produto (uma descrição simples do produto)
② a IA gera o roteiro
③ gera a locução (voz de narração)
④ gera o vídeo com o avatar falando esse roteiro

E isso roda de uma vez (em batch), por produto, por idioma e por hook.
Aqui, 'hook' é a fala de abertura que prende os primeiros 3 segundos do vídeo.

Por exemplo, mudando só o hook para 5 variações (como "Se você não sabe disso, está perdendo", "Veja só 3 segundos") dá para gerar 5 variações de anúncio de uma vez.
É perfeito para o trabalho de testar várias versões para ver "qual abertura funciona melhor" em anúncios de Reels e Shorts.
Porque você não precisa refilmar toda vez.

⚖️ O que muda em relação ao HeyGen e ao Synthesia? (comparação honesta)

"Já que existem HeyGen e Synthesia, por que ElevenLabs?"
Pergunta justa. Vou apontar só o essencial. (Os preços têm como base materiais oficiais e comparativos, e podem variar conforme promoções e ciclo de cobrança.)

Serviço	Ponto forte / forma de cobrança	Bom para
Avatars da ElevenLabs	Voz é a especialidade → voz + rosto em um só lugar. Baseado em créditos	Quando qualidade de voz é prioridade máxima, vozes multilíngues
Synthesia	Cobrança por minuto, facilita o cálculo do orçamento. Avatares bem avaliados em realismo	Treinamento corporativo e vídeos internos
HeyGen	Baseado em créditos. Forte em tradução multilíngue de vídeos existentes	Marketing e tradução de conteúdo internacional

Resumindo o principal diferencial em uma linha, fica assim.

A ElevenLabs é 'integração com a voz em primeiro lugar'.
Uma empresa cuja voz já é de altíssimo nível mundial colou o rosto (o lip-sync) nessa voz e deixou tudo ser gerado de uma vez, em uma única tela.
Não precisa ficar movendo o áudio de um lado para o outro, e a sincronia entre voz e boca é mais precisa: aí está o trunfo.

Só para dar uma ideia de preço, fica assim. (com base em junho de 2026)

HeyGen: por crédito. No recurso de avatar de destaque (Avatar IV), cerca de US$ 1 por minuto (plano Creator).
Synthesia: assinatura por minuto. Na conversão da cobrança anual, cerca de US$ 1,8 a 2,1 por minuto.
Avatars da ElevenLabs: conforme o modelo de lip-sync escolhido, varia bastante, de cerca de US$ 0,45 (barato) a US$ 13,8 (premium) por minuto (veja a tabela de crédito por segundo acima).

💰 Então, afinal, o que sai mais barato? Fiz a conta até o fim na parte 2
Falando a real, se você criar muitos vídeos em alta qualidade, uma plataforma dedicada (HeyGen, Synthesia) pode sair mais barata por minuto;
se for de vez em quando, em pouca quantidade ou com workflow integrado, a ElevenLabs leva vantagem.
Calculei até o fim, com tabela de custo real por minuto, o ponto de equilíbrio que se decide pelo "quantos minutos você cria por mês".
→ [Duelo de custo de avatar] Assinatura direta vs ElevenLabs: vem ver quem é realmente mais barato →

🚨 Sendo honesto, o que ainda é incerto
A duração máxima de vídeo que dá para gerar de uma vez em cada modelo e o crédito da própria geração do avatar (a imagem) variam por modelo e configuração, então não estão divulgados de forma exata.
(A resolução máxima também muda por modelo. Como na tabela acima, há modelos que vão até 720p e outros até 1080p.)
Em compensação, o custo exato aparece como créditos estimados na tela, logo antes de gerar, então é só olhar e clicar.
Além disso, no lançamento não há API (integração externa); ela será oferecida mais adiante.

🙋 Então, para quem isso é bom?

Na nossa visão, é especialmente poderoso para estas pessoas.

Criadores de Shorts e Reels: tocar o canal com um 'apresentador de IA' consistente, sem o peso de aparecer.
Anunciantes UGC e profissionais de performance: produzir variações de anúncio em massa mudando só o hook, facilitando o teste A/B.
Criadores de conteúdo de aula e educação: fazer séries de aulas com o 'mesmo instrutor', expandindo por disciplina e idioma.
Gestores de marca e redes sociais: produzir conteúdo social com constância, sem filmar toda vez.
Quem precisa de vídeos explicativos multilíngues: combinar com as vozes multilíngues da ElevenLabs para produzir vídeos localizados.

Por outro lado, para quem quer gerar vídeos totalmente de graça, ainda fica a desejar.
O Avatars (geração de vídeo) só pode ser usado nos planos pagos (no plano gratuito não dá para gerar vídeo).
Por sorte, no momento ele está disponível em todos os planos pagos do ElevenCreative.

❓ Perguntas frequentes

P. Dá para criar um avatar na hora com apenas uma foto?
Tecnicamente, dá para criar com 1 foto, e também dá para criar sem foto, descrevendo por texto (prompt de texto).
Mas o guia oficial recomenda de 3 a 5 fotos da mesma pessoa em ângulos diferentes.
Usando só 1, o rosto pode não ficar consistente de um vídeo para outro. Se quiser um resultado estável, suba várias fotos.

P. Dá para fazer vídeo de avatar falando também no plano gratuito?
Não. A geração de vídeo com avatar só é possível nos planos pagos (no plano gratuito a geração de vídeo é restrita).
Mas dá para usar em todos os planos pagos do ElevenCreative, e o custo é descontado dos créditos de 'Image & Video' que já existem.
Varia conforme o modelo, a resolução e a duração escolhidos, e como os créditos estimados aparecem na tela antes de gerar, é só olhar e decidir.

P. Existe motivo para usar o Avatars da ElevenLabs no lugar do HeyGen ou do Synthesia?
A maior diferença é a 'voz'.
A ElevenLabs tem TTS e voice clone como especialidade original, então é forte em qualidade de voz e em vozes multilíngues.
Some a isso o rosto (lip-sync) e o trunfo central é fazer o vídeo de uma vez, em um só lugar, sem mover o áudio para outro serviço.
Se qualidade de voz é prioridade máxima ou se você faz vídeos multilíngues com frequência, é atraente.
(Por outro lado, se gerir orçamento por minuto é importante, o Synthesia; se o foco principal é traduzir vídeos existentes para vários idiomas, o HeyGen também são boas escolhas.)

P. Dá para manter a mesma pessoa em todos os vídeos, sem o rosto mudar?
Sim, esse é o ponto central do avatar.
Um avatar criado uma vez mantém uma identidade fixa, então aparece com o mesmo rosto em vários vídeos, independentemente de quantas vezes você gerar.
Com o recurso 'Styles' dá para criar variações mudando só ângulo, roupa e cenário, então é possível variar a direção mantendo a identidade.

🎁 Para encerrar

Vou resumir só o essencial de hoje de novo.

Avatars = recurso novo em que uma pessoa de IA, criada por foto ou texto, sai como um vídeo falando o roteiro com a boca sincronizada.
Voz e sincronia da boca de uma vez, em uma só tela → sem o trabalho de mover áudio, sincronia mais precisa.
O avatar criado uma vez é reaproveitado o tempo todo, com variações de ângulo, roupa e cenário pelo Styles.
Com o nó de Avatar do Flows, dá para produzir anúncios UGC e Shorts em massa, por hook e por idioma.
Alguns números, como preço, duração e modelos de seleção automática, não foram divulgados → confira os créditos exibidos antes de gerar.

A 'rainha das vozes' agora tem o 'rosto' nas mãos.
Abriu-se a era em que a voz se conecta ao vídeo em um único fluxo.

Se você usa um plano pago, suba algumas fotos ainda hoje
e crie o seu próprio apresentador de IA.
Ver uma linha de roteiro virar um 'vídeo falando' é uma experiência que, quando você faz uma vez, sente em 1 minuto!

👉 Começar com o Avatars da ElevenLabs →

No próximo artigo, volto com mais dicas úteis.
Aqui foi o Sonetho. ⚡