"Subí una sola foto, escribí un guion… ¿y esa persona habla de verdad?"
Hasta ahora, ElevenLabs era la empresa que creaba 'voces'.
Pero esta vez ha empezado a crear también 'rostros'.
Hablamos de Avatars: solo metes un guion y obtienes de una sola vez un vídeo de una persona generada por IA que habla.
Hola, somos Sonetho. ⚡
Llevamos casi 3 años exprimiendo ElevenLabs a diario,
y hoy traemos una función recién salida del horno, anunciada oficialmente a mediados de junio de 2026: Avatars.
Para resumirlo en una línea:
ahora puedes crear un 'vídeo de una persona que habla' de principio a fin dentro del propio ElevenLabs.
Subes una foto para crear un personaje de IA, escribes un guion, eliges una voz
→ y obtienes un vídeo en el que esa persona habla con el movimiento de labios perfectamente sincronizado.
Seguro que conoces servicios como HeyGen o Synthesia (plataformas de vídeo con avatares de IA que hablan).
Pues bien: a ese terreno acaba de entrar ElevenLabs, el rey indiscutible de la voz.
Hoy vamos a explicarte qué es, cómo se usa y en qué se diferencia de los servicios que ya conocías, todo desde cero y para principiantes.
👉 Empezar con los avatares de ElevenLabs →
🤔 ¿Por qué una empresa de voz se mete de repente con los 'rostros'?
Empecemos por aclarar los términos de forma sencilla.
💡 Caja de términos para entenderlo de golpe
Avatars (avatares) = tu propio 'personaje de IA' creado a partir de fotos o de texto. Lo creas una vez y lo reutilizas en muchos vídeos.
Talking-head = ese vídeo de 'rostro que habla', tan común en YouTube y en anuncios, donde una persona mira a cámara y habla.
Lip-sync (sincronización labial) = la tecnología que ajusta de forma natural el movimiento de los labios a la voz.
ElevenCreative = el espacio de creación de contenido de ElevenLabs. Dentro, en el menú 'Image & Video', es donde ha llegado esta nueva función de avatares.
El arma de verdad de ElevenLabs es, sin discusión, la 'voz'.
Están a nivel mundial en TTS (la tecnología que convierte texto en voz humana) y en clonación de voz.
Pero quienes hacen vídeos arrastraban esta incomodidad:
generaban la voz en ElevenLabs,
subían ese archivo de audio otra vez a otro servicio (HeyGen, etc.),
y allí sincronizaban los labios… todo ese ir y venir (mover archivos de un lado a otro) resultaba engorroso.
Los avatares resuelven todo este proceso en un solo lugar.
La voz, el rostro y la sincronización labial → todo de una vez dentro de ElevenLabs.
No es que una empresa de voz haya creado rostros, sino que su plan es conectar 'de la voz al vídeo' sin cortes.
⚙️ Cómo funciona: el paso de 'exportar el audio' desaparece por completo
El anuncio de estos avatares tiene una frase clave:
que "el Text to Speech está integrado directamente en el prompt island (la pantalla del prompt)".
Suena complicado, pero el significado es simple.
💡 Dicho fácil
En ese mismo sitio donde escribes el guion (prompt island = el panel donde introduces las instrucciones) está incluida también la función que genera la voz.
Así, la voz y el vídeo con los labios sincronizados (lip-sync) se generan 'a la vez, de una sola vez'.
No hace falta exportar el archivo de audio aparte y llevarlo a otro sitio: nada de eso.
Y aquí va un punto más.
El hecho de que ElevenLabs sea dueña directa de 'la parte que genera la voz' juega a su favor.
Como la tecnología que crea la voz (voice model) y la que sincroniza los labios (lip-sync model) funcionan juntas bajo el mismo techo,
el anuncio oficial explica que el sincronismo (el timing entre los labios y el sonido) encaja mejor que cuando importas el audio desde fuera para sincronizarlo.
Se reduce ese pequeño desajuste en el que los labios dicen "hola" pero el sonido va por "buenas".
📌 Nota del editor: el modelo de lip-sync lo eliges 'tú' ⚡
ElevenLabs reúne en un mismo sitio varias tecnologías de lip-sync de calidad
y deja que elijas directamente el modelo que quieras en la pantalla de generación (también ofrece uno por defecto).
La clave es que cada modelo tiene una calidad, una resolución máxima y un 'coste en créditos por segundo' distintos. Lo recogemos justo abajo en la tabla con datos reales.
🎬 Paso a paso: de la foto al vídeo hablado, sin perderte
El flujo real de uso es más sencillo de lo que parece.
Resumido según la guía oficial, queda así.
Paso 1: crear el avatar (tu propio personaje de IA)
En el menú Image & Video de ElevenCreative, pulsa 'New' en la zona de Avatar.
Después, crea el personaje de una de estas dos formas.
Subir fotos: si subes de 3 a 5 fotos de la misma persona desde varios ángulos, el resultado es más estable.
(Si subes una sola foto, el resultado puede salir irregular.)Describir con texto: también puedes crearlo sin fotos, describiendo "una persona así" mediante un prompt de texto.
Por cierto, no solo personas: también puedes convertir en avatar a personajes o animales. (No tiene por qué ser humano.)
Paso 2: ponle nombre y asigna una voz por defecto
Dale un nombre al avatar, define si quieres una voz por defecto (default voice) y confirma el personaje con 'Create Avatar'.
Cada avatar lleva una voz por defecto asignada, pero puedes cambiarla cuando quieras.
Paso 3: crear el vídeo hablado
Elige el avatar que creaste y pulsa 'Create Lip Sync'.
Luego ① elige el estilo → ② elige la voz (una voz de la biblioteca o una que hayas clonado) → ③ introduce el guion → ④ genera la voz con 'Generate speech' y escúchala en vista previa.
Paso 4: generar
Si quieres, añade un prompt visual para fijar el ambiente del vídeo y pulsa 'Generate': listo.
El vídeo con los labios sincronizados queda terminado junto con la voz.
💡 Mira los créditos antes de pulsar
El vídeo de avatar sigue la estructura de créditos de 'Image & Video' de siempre.
El coste varía según el modelo de lip-sync elegido, la resolución de salida y la duración del vídeo.
Por suerte, antes de pulsar el botón de generar se muestran en pantalla los créditos estimados. ¡Míralos antes de pulsar!
(Admite resoluciones de 480p, 720p y 1080p, pero según algunos criterios la 'duración del vídeo' influye más en los créditos que la resolución o la relación de aspecto.)
Por eso hemos copiado tal cual los créditos por segundo de cada modelo de lip-sync, sacados de la pantalla real de selección de modelos en junio de 2026. (Cuanto más bajo el número, más barato.)
Modelo de lip-sync | Créditos por segundo | Características (descripción oficial) |
|---|---|---|
Veed Lipsync | 41 | Lip-sync de vídeo rápido y económico |
Sync Lipsync 2 Pro | 661 | Calidad de estudio para contenido real, animado y de IA |
Creatify Aurora | 848 | Máxima calidad a partir de imágenes, lip-sync guiado |
Sync 3 | 1,053 | Inteligencia visual, calidad profesional |
HeyGen Avatar 4 (nuevo) | 1,212 | Movimiento expresivo, hasta 1080p |
Veed Fabric | 1,212 | Realista con cualquier imagen, hasta 720p |
OmniHuman 1.5 | 1,267 | Lip-sync realista, admite rostros no humanos |
⚠️ La trampa del 'por segundo': escala directamente con la duración
Como es por segundo, cuanto más largo el vídeo, más sube el coste sin parar.
Ej.) un vídeo de 30 segundos con Sync 3 (1.053/s) → unos 31.600 créditos. Si es de 1 minuto, unos 63.000 créditos.
Con el plan Creator (unos 120.000 créditos al mes) eso da para unos 3 o 4 vídeos de 30 segundos. Sinceramente, no es muy holgado.
En cambio, un modelo barato como Veed Lipsync (41/s) sale a unos 1.230 créditos por 30 segundos, así que con los mismos créditos sacas decenas de veces más.
Es el clásico equilibrio calidad ↔ coste.Además, los créditos de generar el avatar (la imagen) van aparte. Los créditos por segundo de arriba son el coste de la parte del 'vídeo hablado (lip-sync)'.
※ Los créditos por segundo son valores reales medidos en la pantalla de selección de modelos de junio de 2026. La política de modelos y precios cambia a menudo, así que comprueba siempre los créditos estimados en pantalla justo antes de generar.
🪪 Lo creas una vez y lo usas siempre: identidad persistente y variaciones de 'estilo'
La verdadera ventaja del avatar es la 'reutilización'.
El avatar que creas una vez tiene una 'identidad fija (persistent identity)'.
Dicho fácil: ese personaje que creaste una sola vez puede aparecer siempre con la misma cara en muchos vídeos.
Se acabaron los accidentes en los que la cara cambia sutilmente de un vídeo a otro.
A esto se suma la función 'Styles' (estilos).
Manteniendo intacta la identidad central de la misma persona, puedes crear variaciones cambiando lo siguiente.
Ángulo de cámara (de frente, de perfil, etc.)
Vestuario (traje, ropa informal, etc.)
Fondo e iluminación
Por ejemplo, creas un único 'presentador de nuestra marca'
y luego sacas con la misma persona una versión de traje sobre fondo de oficina, otra informal en exteriores y otra en primer plano.
Este avatar y sus estilos se mantienen sin importar cuántas veces generes, y se reutilizan en distintos proyectos.
📌 Por qué esto importa ⚡
Tanto en un canal de YouTube como en publicidad, el espectador recuerda la marca cuando aparece siempre 'la misma cara'.
Si grabas cada vez o usas un personaje de IA distinto en cada ocasión, se rompe la coherencia.
El avatar te da un presentador que 'creas una vez y aprovechas para siempre'.
🔁 'Producción en masa' con Flows: fabrica anuncios UGC de una sola tanda
A partir de aquí la cosa se pone algo más avanzada, pero para marketeros y creadores de UGC es oro puro.
💡 Solo dos términos
Flows = una función de automatización que encadena tareas y las ejecuta en fila, como una cinta transportadora automática.
Anuncio UGC = anuncio con estilo de reseña que parece 'grabado por el propio usuario'. Hoy es el formato que mejor funciona en Instagram, TikTok y Shorts.
Esta vez se ha añadido a Flows un nuevo 'nodo de Avatar (bloque de avatar)'.
Al insertarlo, puedes conectar la generación de vídeos de avatar a un pipeline automático.
Copiando tal cual el flujo de ejemplo oficial, queda así.
① Introduces un brief de producto (una descripción breve del producto)
② La IA genera el guion
③ Genera la voz en off (la voz de narración)
④ Genera el vídeo en el que el avatar dice ese guion
Y todo esto lo ejecuta por producto, por idioma y por hook, todo de golpe (batch).
Aquí, 'hook' se refiere a la frase de apertura que engancha en los primeros 3 segundos del vídeo.
Por ejemplo, cambiando solo el hook por 5 variantes ("Si no sabes esto, pierdes", "Dame solo 3 segundos", etc.) puedes fabricar de una sola vez 5 variaciones de anuncio.
Es perfecto para ese trabajo de probar varias versiones para ver "qué apertura engancha más" en anuncios de Shorts y Reels.
Porque no hace falta volver a grabar cada vez.
⚖️ ¿En qué se diferencia de HeyGen y Synthesia? (comparación honesta)
"Si ya tengo HeyGen o Synthesia, ¿para qué ElevenLabs?"
Es una pregunta más que razonable. Te señalo solo lo esencial. (Los precios se basan en datos oficiales y comparativas, y pueden variar según promociones y ciclo de facturación.)
Servicio | Punto fuerte / forma de pago | Va bien cuando… |
|---|---|---|
Avatares de ElevenLabs | Su oficio es la voz → voz + rostro en un solo lugar. Basado en créditos | La calidad de voz es la prioridad, voces multilingües |
Synthesia | Cobro por 'minutos', así que es fácil calcular el presupuesto. Buenas valoraciones del realismo del avatar | Formación corporativa y vídeos internos |
HeyGen | Basado en créditos. Fuerte en traducir vídeos existentes a varios idiomas | Marketing y traducción de contenido internacional |
Si resumimos la diferencia clave en una línea, sería esta.
ElevenLabs es 'integración con la voz primero'.
Una empresa cuya voz ya era de las mejores del mundo le añade un rostro (lip-sync) a esa voz y lo genera todo en una sola pantalla, de una vez.
Su ventaja: no tienes que andar moviendo el audio de aquí para allá y la sincronización entre voz y labios es más precisa.
Vamos a dar una idea rápida de precios. (A fecha de junio de 2026.)
HeyGen: por créditos. Según su función estrella de avatar (Avatar IV), unos $1 por minuto (plan Creator).
Synthesia: suscripción por minutos. Convertido a pago anual, unos $1.8 a $2.1 por minuto.
Avatares de ElevenLabs: según el modelo de lip-sync elegido, va de unos $0.45 por minuto (barato) a $13.8 (premium), un rango muy amplio (ver la tabla de créditos por segundo de arriba).
💰 Entonces, ¿qué sale más barato al final? Lo calculamos a fondo en la parte 2
La verdad: si haces muchos vídeos en alta calidad, una plataforma dedicada (HeyGen, Synthesia) puede salir más barata por minuto;
si lo tuyo es ocasional, poca cantidad o un flujo integrado, ElevenLabs sale más a cuenta.
Calculamos hasta el final el punto de equilibrio, que depende de "cuántos minutos haces al mes", con una tabla de coste real por minuto.
→ [Duelo de costes de avatares] Suscripción directa vs ElevenLabs: descubre quién es realmente más barato →
🚨 Siendo honestos, lo que todavía no está claro
La duración máxima de vídeo que se puede generar de una vez según cada modelo y los créditos de la propia generación del avatar (la imagen) varían según el modelo y la configuración, y no están publicados de forma exacta.
(La resolución máxima también cambia según el modelo. Como ves en la tabla, hay modelos que llegan a 720p y otros a 1080p.)
A cambio, el coste exacto aparece como créditos estimados en la pantalla justo antes de generar, así que basta con mirarlo antes de pulsar.
Además, en el momento del lanzamiento no hay API (integración externa) disponible; está previsto ofrecerla más adelante.
🙋 Entonces, ¿a quién le conviene?
Lo vemos especialmente potente para este perfil.
Creadores de Shorts y Reels: gestionar el canal con un 'presentador de IA' coherente, sin la presión de salir en cámara.
Anunciantes UGC y marketeros de performance: producir variaciones de anuncio en masa cambiando solo el hook, con un A/B testing fácil.
Creadores de cursos y contenido educativo: hacer una serie de clases con 'el mismo profesor' y escalarla por asignatura o idioma.
Responsables de marca y redes sociales: producir contenido social de forma constante sin grabar cada vez.
Quien necesite vídeos explicativos multilingües: crear vídeos localizados combinándolo con las voces multilingües de ElevenLabs.
Por el contrario, si lo que quieres es sacar vídeos totalmente gratis, todavía te quedas con ganas.
Los avatares (generación de vídeo) solo se pueden usar en los planes de pago (el plan gratuito no permite generar vídeo).
Por suerte, ahora mismo están disponibles en todos los planes de pago de ElevenCreative.
❓ Preguntas frecuentes
P. ¿Puedo crear un avatar al instante con una sola foto?
Técnicamente sí se puede crear con una sola foto, e incluso sin fotos, describiéndolo con texto (prompt).
Eso sí, la guía oficial recomienda de 3 a 5 fotos de la misma persona desde varios ángulos.
Con una sola foto, la cara puede no ser coherente entre vídeos. Si quieres un resultado estable, sube varias.
P. ¿Puedo crear vídeos de avatar que hablen con el plan gratuito?
No. La generación de vídeo de avatar solo es posible en los planes de pago (el plan gratuito tiene la generación de vídeo limitada).
Aun así, se puede usar en todos los planes de pago de ElevenCreative, y el coste se descuenta de los créditos de 'Image & Video' de siempre.
Varía según el modelo, la resolución y la duración del vídeo elegidos, y los créditos estimados se muestran en pantalla antes de generar, así que decides con esa información delante.
P. ¿Hay alguna razón para usar los avatares de ElevenLabs en lugar de HeyGen o Synthesia?
La mayor diferencia es la 'voz'.
El oficio de ElevenLabs es, de origen, el TTS y la clonación de voz, así que es fuerte en calidad de voz y en voces multilingües.
Sobre eso le añade un rostro (lip-sync) y, su ventaja clave, genera el vídeo en un solo lugar y de una vez, sin mover el audio a otro servicio.
Resulta atractivo si la calidad de voz es tu prioridad o si haces vídeos multilingües a menudo.
(Al contrario, si lo importante es gestionar el presupuesto por minutos, Synthesia; y si tu objetivo principal es traducir vídeos existentes a varios idiomas, HeyGen también es una buena opción.)
P. ¿Puedo usar siempre la misma persona, sin que la cara cambie de un vídeo a otro?
Sí, esa es la esencia del avatar.
El avatar que creas una vez mantiene una identidad fija, así que aparece con la misma cara en muchos vídeos, sin importar cuántas veces generes.
Con la función 'Styles' puedes crear además variaciones cambiando solo el ángulo, el vestuario o el fondo, manteniendo la identidad mientras varías la puesta en escena.
🎁 Para terminar
Vamos a repasar de nuevo lo esencial de hoy.
Avatars = la nueva función que convierte un personaje de IA creado con fotos o texto en un vídeo donde habla con los labios sincronizados al guion.
La voz y la sincronización labial se hacen en una sola pantalla, de una vez → sin la molestia de mover el audio, con un sincronismo más preciso.
El avatar que creas una vez se reutiliza siempre, y con Styles varías ángulo, vestuario y fondo.
Con el nodo de Avatar de Flows, produces anuncios UGC y Shorts en masa por hook y por idioma.
Algunos datos como precio, duración o el modelo de selección automática no están publicados → comprueba los créditos que se muestran antes de generar.
'El rey de la voz' tiene ahora también el 'rostro' en la mano.
Se ha abierto una era en la que de la voz al vídeo todo va en un mismo flujo.
Si ya usas un plan de pago, sube hoy mismo unas cuantas fotos
y crea tu propio presentador de IA.
Que una línea de guion se convierta en un 'vídeo hablado' es algo que, en cuanto lo pruebas, notas en apenas 1 minuto.
👉 Empezar con los avatares de ElevenLabs →
Nos vemos en el próximo artículo con más trucos útiles.
Esto ha sido Sonetho. ⚡