ElevenLabs Avatars : une photo + un script, et la vidéo d'une "personne IA qui parle" sort en un clin d'œil ⚡

ElevenLabs, l'entreprise de voix, lance "Avatars" dans ElevenCreative. Vous chargez une photo pour créer votre personnage IA, et il suffit d'écrire un script pour qu'une vidéo où il parle avec les lèvres synchronisées se génère d'un coup. La voix et le lip-sync étant créés ensemble sur un seul écran, son atout face à HeyGen et Synthesia est ce "workflow intégré centré sur la voix". On explique pour les débutants comment l'utiliser pour les Shorts, les pubs UGC et les vidéos de formation, et ce qui le distingue de HeyGen et Synthesia.

"J'ai juste mis une photo et écrit un script... et la personne se met vraiment à parler ?"

 

Jusqu'ici, ElevenLabs était l'entreprise qui fabriquait des "voix".
Mais cette fois, elle se met aussi à fabriquer des "visages".
Voici Avatars : vous saisissez un script, et une vidéo d'une personne IA qui parle sort d'un seul coup.

Bonjour, ici Sonetho. ⚡

 

Cela fait presque trois ans que nous utilisons ElevenLabs au quotidien,
et aujourd'hui il débarque avec une nouveauté toute fraîche, annoncée officiellement à la mi-juin 2026 : Avatars.

 

Pour le résumer en une phrase.
On peut désormais créer une "vidéo d'une personne qui parle" de bout en bout, directement dans ElevenLabs.
Vous chargez une photo pour créer un personnage IA, vous écrivez un script, vous choisissez une voix,
→ et ce personnage parle dans une vidéo, avec le mouvement des lèvres parfaitement synchronisé.

 

Si vous créez du contenu, vous avez sûrement déjà entendu parler de HeyGen et Synthesia (des services de vidéos d'avatars IA qui parlent).
Eh bien, le "champion de la voix" qu'est ElevenLabs s'invite désormais sur ce terrain.
Aujourd'hui, on décortique tout pour les débutants : ce que c'est, comment l'utiliser, et ce qui le distingue des services existants !

 

👉 Démarrer avec ElevenLabs Avatars →

 


🤔 Pourquoi une entreprise de voix se met-elle soudain aux "visages" ?

Commençons par poser le vocabulaire simplement.

 

💡 Le glossaire express

  • Avatars = votre "personnage IA" personnel, créé à partir d'une photo ou d'un texte. Une fois créé, vous le réutilisez dans une infinité de vidéos.

  • Talking-head = une vidéo d'un "visage qui parle" face à la caméra, comme on en voit partout sur YouTube ou dans les pubs.

  • Lip-sync (synchronisation labiale) = la technologie qui ajuste naturellement le mouvement des lèvres à la voix.

  • ElevenCreative = l'espace de création de contenu d'ElevenLabs. C'est dans son menu "Image & Video" qu'arrive ce nouvel Avatars.

 

La vraie arme d'ElevenLabs, c'est et ce sera toujours la "voix".
Le TTS (la technologie qui transforme du texte en voix humaine) et le clonage vocal sont parmi les meilleurs au monde.

 

Mais ceux qui font des vidéos rencontraient le souci suivant.

  • Générer la voix sur ElevenLabs,

  • puis recharger ce fichier audio sur un autre service (HeyGen, etc.),

  • et là, synchroniser le mouvement des lèvres... ce va-et-vient (le fait de balader les fichiers d'un outil à l'autre) était pénible.

 

Avatars règle toutes ces étapes d'un seul coup, au même endroit.
La voix, le visage, la synchro labiale : tout se fait dans ElevenLabs, en une seule fois.
Ce n'est pas tant qu'une entreprise de voix s'est mise aux visages, c'est plutôt qu'elle veut relier "de la voix à la vidéo" sans aucune rupture.

 


⚙️ Comment ça marche : l'étape "export audio" disparaît complètement

L'annonce de ce nouvel Avatars contient une phrase clé.
À savoir : "le Text to Speech est désormais intégré directement à la prompt island (l'écran de prompt)".

 

Ça sonne technique, mais le sens est simple.

 

💡 En clair

  • Là où vous saisissez votre script (la prompt island = le panneau où vous écrivez vos instructions), la fonction de génération de voix est intégrée au même endroit.

  • Du coup, la voix et la vidéo synchronisée (le lip-sync) sont générées "ensemble, en une seule fois".

  • Plus besoin d'extraire un fichier audio (export) pour le transférer ailleurs : cette étape disparaît purement et simplement.

 

Et il y a un point de plus.
Le fait qu'ElevenLabs possède en interne la "partie génération de voix" joue ici comme un atout.

 

Comme la technologie de génération de voix (voice model) et celle de synchro labiale (lip-sync model) tournent ensemble sous le même toit,
l'annonce officielle explique que la synchro (le calage entre les lèvres et le son) est plus précise qu'avec une méthode où l'on importe l'audio depuis l'extérieur pour caler les lèvres.
Ce léger décalage où les lèvres disent "bon" pendant que le son dit "jour" diminue d'autant.

 

📌 Note de la rédaction : le modèle de lip-sync, c'est "vous" qui le choisissez ⚡
ElevenLabs a réuni au même endroit plusieurs excellentes technologies de lip-sync,
et vous laisse choisir vous-même le modèle de lip-sync voulu dans l'écran de génération (une valeur par défaut est aussi proposée).
L'essentiel à retenir : chaque modèle a une qualité, une résolution maximale et un "coût en crédits par seconde" différents. On récapitule tout dans le tableau de mesures juste en dessous.

 


🎜 Pas à pas : de la photo à la vidéo parlante, étape par étape

Le déroulé réel est plus simple qu'on ne le croit.
Voici comment ça se passe, d'après le guide officiel.

 

Étape 1 : créer un avatar (votre personnage IA personnel)
Dans le menu Image & Video d'ElevenCreative, cliquez sur "New" dans la zone Avatar.
Ensuite, créez votre personnage de l'une des deux façons.

  • Charger des photos : en mettant 3 à 5 photos de la même personne sous différents angles, le résultat est plus stable.
    (Avec une seule photo, le résultat peut être irrégulier.)

  • Décrire par écrit : sans photo, vous pouvez aussi créer le personnage avec un prompt texte qui décrit "une personne comme ça".

À noter : on peut créer en avatar non seulement des humains, mais aussi des personnages et des animaux. (Pas besoin que ce soit une personne)

 

Étape 2 : nommer et définir une voix par défaut
Donnez un nom à l'avatar, définissez si besoin une voix par défaut (default voice), puis validez le personnage avec "Create Avatar".
Chaque avatar est associé d'avance à une voix par défaut, mais vous pouvez la changer à tout moment.

 

Étape 3 : créer la vidéo parlante
Sélectionnez l'avatar créé et cliquez sur "Create Lip Sync".
Puis ① choisissez le style → ② choisissez la voix (une voix de la bibliothèque ou une voix que vous avez clonée) → ③ saisissez le script → ④ cliquez sur "Generate speech" pour générer la voix et l'écouter en aperçu.

 

Étape 4 : générer
Si besoin, ajoutez un léger prompt visuel pour donner l'ambiance, puis cliquez sur "Generate", et c'est tout.
La vidéo avec les lèvres synchronisées est livrée avec la voix.

 

💡 Les crédits, regardez-les avant de cliquer

  • Les vidéos d'avatar suivent la structure de crédits "Image & Video" existante.

  • Le coût varie selon le modèle de lip-sync choisi, la résolution de sortie et la durée de la vidéo.

  • Bonne nouvelle : les crédits estimés s'affichent à l'écran avant que vous appuyiez sur le bouton de génération. Regardez avant de cliquer !

  • (Côté résolution, le 480p, 720p et 1080p sont pris en charge ; selon certains barèmes, c'est "la durée de la vidéo" qui pèse plus sur les crédits que la résolution ou le format.)

 

Pour vous aider, nous avons recopié tel quel le coût en crédits par seconde de chaque modèle de lip-sync, depuis l'écran de sélection de modèle réel de juin 2026. (Plus le chiffre est bas, moins c'est cher)

Modèle de lip-sync

Crédits / seconde

Caractéristiques (description officielle)

Veed Lipsync

41

Lip-sync vidéo rapide et économique

Sync Lipsync 2 Pro

661

Qualité studio pour contenu réel, animé et IA

Creatify Aurora

848

Qualité optimale à partir d'une image, lip-sync guidé

Sync 3

1,053

Intelligence visuelle, qualité professionnelle

HeyGen Avatar 4 (nouveau)

1,212

Mouvements expressifs, jusqu'à 1080p

Veed Fabric

1,212

Réaliste à partir de n'importe quelle image, jusqu'à 720p

OmniHuman 1.5

1,267

Lip-sync réaliste, prise en charge des visages non humains

⚠️ Le piège du "par seconde" : ça grimpe proportionnellement à la durée

  • Comme c'est facturé par seconde, plus la vidéo est longue, plus la facture monte vite.

  • Ex.) une vidéo de 30 secondes avec Sync 3 (1 053/s) → environ 31 600 crédits. Pour 1 minute, environ 63 000 crédits.

  • Sur le plan Creator (env. 120 000 crédits/mois), ça représente 3 à 4 vidéos de 30 secondes. Franchement, ce n'est pas large.

  • En revanche, un modèle bon marché comme Veed Lipsync (41/s) coûte environ 1 230 crédits pour 30 secondes : des dizaines de fois plus de vidéos pour les mêmes crédits.
    C'est l'arbitrage qualité ↔ coût.

  • À cela s'ajoute le fait que les crédits de génération de l'avatar (l'image) sont à part. Le coût par seconde ci-dessus concerne la partie "vidéo parlante" (lip-sync).

※ Le coût par seconde est une valeur relevée sur l'écran de sélection de modèle en juin 2026. Les modèles et la politique tarifaire changent souvent : vérifiez bien les crédits estimés affichés juste avant la génération.

 

👉 Créer son propre avatar →

 


🪪 Créez-le une fois, réutilisez-le sans fin : identité persistante & variantes de "style"

Le vrai atout d'un avatar, c'est la "réutilisation".

 

Une fois créé, un avatar possède une "identité persistante (persistent identity)".
En clair, vous pouvez faire apparaître ce personnage avec exactement le même visage dans une infinité de vidéos.
Fini les accidents où le visage change subtilement d'une vidéo à l'autre.

 

À cela s'ajoute la fonction "Styles".
Tout en conservant l'identité de base de la personne, vous pouvez créer des variantes en modifiant les éléments suivants.

  • L'angle de caméra (de face / de profil, etc.)

  • La tenue (costume / décontracté, etc.)

  • L'arrière-plan et l'éclairage

 

Par exemple, vous créez un seul "présentateur de notre marque",
puis vous le déclinez avec la même personne en version costume sur fond de bureau, en version décontractée en extérieur, en version gros plan.
Cet avatar et ses styles restent disponibles quel que soit le nombre de générations, réutilisables sur plusieurs projets.

 

📌 Pourquoi c'est important ⚡
Que ce soit une chaîne YouTube ou une pub, c'est en voyant "le même visage" de façon régulière que le spectateur retient la marque.
Tourner à chaque fois ou utiliser à chaque fois un personnage IA différent fait voler la cohérence en éclats.
Avatars vous offre un présentateur que vous "créez une fois et exploitez à vie".

 


🔁 Produire en masse avec Flows : enchaîner des pubs UGC d'un seul coup

À partir d'ici, c'est un peu plus avancé, mais pour les marketeurs et les créateurs d'UGC, c'est de l'or.

 

💡 Juste deux termes

  • Flows = une fonction d'automatisation qui enchaîne les tâches à la file, comme un tapis roulant automatique.

  • Pub UGC = une pub façon témoignage, "comme filmée par l'utilisateur lui-même". C'est le format qui marche le mieux en ce moment sur Instagram, TikTok et les Shorts.

 

Cette fois, un "nœud Avatar (bloc Avatar)" a été ajouté à Flows.
En l'insérant, vous pouvez brancher la génération de vidéos d'avatar sur un pipeline automatisé.

 

Voici le flux d'exemple officiel, repris tel quel.

  • ① Saisie d'un brief produit (une courte description du produit)

  • ② L'IA génère le script

  • ③ Génération de la voix off (la narration)

  • ④ Génération de la vidéo où l'avatar prononce ce script

 

Et on exécute le tout par produit, par langue et par hook, en une seule fournée (batch).
Ici, le "hook" désigne la phrase d'accroche qui capte les 3 premières secondes de la vidéo.

 

Par exemple, en changeant simplement le hook (5 variantes du type "Ne pas le savoir, c'est perdre de l'argent", "Regardez juste 3 secondes", etc.), vous pouvez sortir 5 variantes de pub d'un seul coup.
C'est parfait pour le travail consistant à tester plusieurs versions afin de voir "quelle accroche fonctionne le mieux", typique des pubs en Shorts et Reels.
Parce qu'il n'y a plus besoin de re-tourner à chaque fois.

 


⚖️ En quoi est-ce différent de HeyGen et Synthesia ? (comparatif honnête)

"J'ai déjà HeyGen et Synthesia, pourquoi ElevenLabs ?"
Question légitime. Je vous donne l'essentiel. (Les prix sont basés sur les sources officielles et comparatives, et peuvent varier selon les promotions et le cycle de facturation.)

 

Service

Atout / Mode de facturation

Idéal quand

ElevenLabs Avatars

La voix est son métier → voix + visage au même endroit. Basé sur des crédits

La qualité vocale prime, voix multilingues

Synthesia

Facturation à la "minute", donc budget facile à calculer. Avatars bien notés pour leur réalisme

Formation en entreprise, vidéos internes

HeyGen

Basé sur des crédits. Fort en traduction multilingue de vidéos existantes

Marketing, traduction de contenus pour l'international

 

Pour résumer la différence clé en une phrase, voici.

 

ElevenLabs, c'est "l'intégration centrée sur la voix".
Une entreprise dont la voix est déjà au top niveau mondial y greffe le visage (le lip-sync), pour tout générer en une fois, sur un seul écran.
Plus besoin de balader l'audio d'un outil à l'autre, et la synchro voix-lèvres est plus précise : voilà l'atout.

 

Pour vous donner une idée des prix, voici. (à la date de juin 2026)

  • HeyGen : à l'unité de crédit. Pour la fonction avatar phare (Avatar IV), environ $1 par minute (plan Creator).

  • Synthesia : abonnement à la minute. En facturation annuelle, environ $1.8 à 2.1 par minute.

  • ElevenLabs Avatars : selon le modèle de lip-sync choisi, la fourchette est large, d'environ $0.45 (économique) à $13.8 par minute (premium) (voir le tableau des crédits par seconde ci-dessus).

 

💰 Alors au final, qu'est-ce qui revient le moins cher ? On a tout calculé dans la partie 2
Honnêtement, si vous produisez beaucoup en haute qualité, une plateforme dédiée (HeyGen, Synthesia) peut revenir moins cher à la minute,
tandis que pour un usage occasionnel, en petite quantité, en workflow intégré, ElevenLabs est avantageux.
On a poussé jusqu'au bout le calcul du seuil de rentabilité, qui se joue sur le "combien de minutes par mois", avec un tableau du coût réel à la minute.
[Duel coût des avatars] Abonnement direct vs ElevenLabs : qui est vraiment le moins cher, on vous montre →

 

🚨 En toute honnêteté, ce qui reste encore incertain
La durée maximale d'une vidéo générée en une fois selon le modèle et le coût en crédits de la génération de l'avatar (l'image) lui-même varient selon les modèles et les réglages, et ne sont pas publiés de façon nette.
(La résolution maximale diffère aussi d'un modèle à l'autre. Comme dans le tableau ci-dessus, certains modèles plafonnent à 720p, d'autres à 1080p.)
En revanche, le coût exact s'affiche en crédits estimés juste avant la génération : il suffit de regarder avant de cliquer.
Par ailleurs, au lancement, l'API (l'intégration externe) n'est pas disponible ; elle est prévue pour plus tard.

 


🙋 Alors, à qui ça profite ?

À notre avis, c'est particulièrement puissant pour les profils suivants.

 

  • Créateurs de Shorts et Reels : gérer une chaîne avec un "présentateur IA" cohérent, sans avoir à montrer son propre visage.

  • Créateurs de pubs UGC et marketeurs à la performance : produire en masse des variantes de pub en ne changeant que le hook, pour des tests A/B faciles.

  • Créateurs de contenus de cours et de formation : décliner des séries de cours avec "le même formateur", par matière et par langue.

  • Gestionnaires de marques et de réseaux sociaux : produire du contenu social en continu, sans tournage à chaque fois.

  • Ceux qui ont besoin de vidéos explicatives multilingues : créer des vidéos localisées en combinant avec les voix multilingues d'ElevenLabs.

 

À l'inverse, pour ceux qui veulent générer des vidéos totalement gratuitement, c'est encore frustrant.
Avatars (la génération de vidéos) ne s'utilise que dans les plans payants (impossible de générer des vidéos avec le plan gratuit).
Bonne nouvelle : c'est actuellement disponible dans tous les plans payants d'ElevenCreative.

 


❓ Questions fréquentes

 

Q. Une seule photo suffit-elle pour créer un avatar tout de suite ?
Techniquement, on peut le créer avec une seule photo, et même sans photo, en le décrivant par écrit (prompt texte).
Cela dit, le guide officiel recommande 3 à 5 photos de la même personne sous différents angles.
Avec une seule photo, le visage peut manquer de cohérence d'une vidéo à l'autre. Pour un résultat stable, chargez-en plusieurs.

 

Q. Peut-on créer une vidéo d'avatar parlant avec le plan gratuit ?
Non. La génération de vidéos d'avatar n'est possible que dans les plans payants (le plan gratuit limite la génération de vidéos).
En revanche, c'est utilisable dans tous les plans payants d'ElevenCreative, et le coût est déduit des crédits "Image & Video" existants.
Cela varie selon le modèle, la résolution et la durée choisis, et les crédits estimés s'affichent à l'écran avant la génération : vous décidez en connaissance de cause.

 

Q. Y a-t-il une raison d'utiliser ElevenLabs Avatars plutôt que HeyGen ou Synthesia ?
La plus grande différence, c'est la "voix".
Le TTS et le clonage vocal étant le métier d'origine d'ElevenLabs, la qualité vocale et les voix multilingues y sont solides.
Y greffer le visage (le lip-sync) pour créer la vidéo au même endroit, en une fois, sans transférer l'audio vers un autre service, voilà l'atout clé.
Si la qualité vocale prime, ou si vous faites souvent des vidéos multilingues, c'est séduisant.
(À l'inverse, si la gestion d'un budget à la minute compte, Synthesia ; et si votre but principal est la traduction multilingue de vidéos existantes, HeyGen est aussi un bon choix.)

 

Q. Peut-on garder la même personne en continu, sans que le visage change d'une vidéo à l'autre ?
Oui, c'est tout le cœur d'Avatars.
Un avatar créé une fois conserve une identité persistante, et apparaît avec le même visage dans une infinité de vidéos, quel que soit le nombre de générations.
Avec la fonction "Styles", vous pouvez aussi créer des variantes en ne modifiant que l'angle, la tenue ou l'arrière-plan : l'identité reste, mais les mises en scène se diversifient.

 


🎁 Pour conclure

Récapitulons l'essentiel.

 

  • Avatars = la nouveauté où un personnage IA créé à partir d'une photo ou d'un texte sort en vidéo, prononçant un script avec les lèvres synchronisées.

  • La voix et la synchro labiale, sur un seul écran, en une fois → fini la corvée de transférer l'audio, et une synchro plus précise.

  • Un avatar créé une fois se réutilise sans fin, avec Styles pour varier angle, tenue et arrière-plan.

  • Avec le nœud Avatar de Flows, produisez en masse des pubs UGC et des Shorts, par hook et par langue.

  • Certains chiffres (prix, durée, modèle sélectionné automatiquement, etc.) ne sont pas publiés → vérifiez les crédits affichés avant la génération.

 

Le "champion de la voix" tient désormais aussi le "visage" entre ses mains.
L'ère où l'on enchaîne de la voix à la vidéo dans un seul flux vient de s'ouvrir.

 

Si vous êtes déjà sur un plan payant, chargez quelques photos dès aujourd'hui
et créez votre propre présentateur IA.
Voir une simple ligne de script se transformer en "vidéo parlante", il suffit d'essayer une fois pour le ressentir en une minute !

 

👉 Démarrer avec ElevenLabs Avatars →

 

On se retrouve dans un prochain article avec d'autres astuces bien utiles.
C'était Sonetho. ⚡