[Guide ultime des prompts ElevenLabs] Pourquoi les résultats diffèrent-ils avec le même script ? Maîtrisez les tags d'émotion, les effets sonores, la prononciation et les pauses ⚡

Q: J'ai ajouté une balise comme [excited], mais l'IA lit le mot "excited" tel quel. Pourquoi ?

Il est très probable que vous utilisiez le modèle v2 (Multilingual v2) . Les balises audio sont converties en jeu d'acteur uniquement par la version Eleven v3 ; en v2, elles sont lues comme du texte. Changez le modèle pour la v3 et réessayez.

Q: Les chiffres ou abréviations sont mal lus, quelle est la solution la plus rapide ?

Pour un texte unique, le plus rapide est d' écrire phonétiquement (par exemple, API → "A-P-I"). Si le mot revient souvent, enregistrez-le dans le dictionnaire de prononciation (dans la colonne 'Alias', utilisez l'orthographe correcte sans traits d'union). Si la prononciation est agglutinée, l'utilisation de traits d'union dans votre texte est une solution miracle. Consultez le guide de correction phonétique pour plus de détails.

Q: Sur un long script, le ton change par moments. Peut-on l'éviter via les prompts ?

La v3 a tendance à reconfigurer la voix à chaque saut de ligne (paragraphe) ; réduire les sauts de ligne et regrouper le texte peut aider. Si le ton reste instable, passer à la v2 , qui offre une meilleure constance vocale, est la solution la plus sûre. Vous pouvez comparer les différences entre les modèles dans notre article Test comparatif v3 vs v2 .

Q: Peut-on cumuler plusieurs balises d'émotion pour plus de richesse ?

Il est techniquement possible de combiner plusieurs balises . Cependant, en abuser dans une même phrase rendra le ton instable (variations de vitesse, bruit de fond) ou elles seront tout simplement ignorées par le modèle. La règle d'or est de n'utiliser qu' une seule balise par phrase , aux endroits cruciaux, pour un résultat naturel.

« Pourquoi un même script produit-il un résultat différent d'hier à aujourd'hui ? »
C’est une question que tout utilisateur d'ElevenLabs s'est déjà posée.
En réalité, 80 % de cette différence repose sur la manière dont vous rédigez votre « prompt » (votre texte d'entrée).

Bonjour, ici Sonetho ⚡

Sur ElevenLabs, le « prompt » n’a rien de complexe : il s’agit simplement du texte que vous saisissez pour le convertir en audio.
Mais le point crucial est que ce texte n'est pas qu'une simple « suite de mots ».

Prenez la phrase « C’est vraiment incroyable ».
Si vous la saisissez telle quelle, elle sera lue de manière neutre.
Ajoutez-y une balise d'émotion, et l'IA jouera le rôle avec un ton réellement surpris. Un chiffre, un point ou un trait d'union suffisent à transformer radicalement le résultat.

Après avoir testé ElevenLabs quotidiennement pendant près de 3 ans,
nous allons aujourd'hui nous pencher sur l'art de rédiger des prompts.
Balises audio v3, correction de prononciation, pauses respiratoires et modèles prêts à l'emploi : tout y est, alors restez avec nous jusqu'au bout !

📌 Pour commencer : le fonctionnement dépend du « modèle » choisi

Avant d'entrer dans le vif du sujet, un point essentiel :
Les « balises audio » (audio tags) que nous allons aborder — comme [excited] ou [laughs] — ne fonctionnent qu'avec le modèle Eleven v3, dont la sortie officielle est prévue pour 2026.

Que se passe-t-il si vous insérez ces balises dans le modèle Multilingual v2 ?
Le modèle ne pourra pas interpréter ces balises comme des instructions de jeu d'acteur ; il les traitera comme du texte ordinaire (la balise sera soit lue à haute voix, soit ignorée). 😅
(Vous pouvez écouter notre test comparatif entre v2 et v3 sur la même phrase via nos 9 pistes audio dans cet article : Comparatif Eleven v3 vs v2.)

Résumé en bref
• Besoin de balises d'émotion ou d'effets sonores → utilisez v3
• Contenu long + constance vocale → privilégiez Multilingual v2 (pour éviter les variations de ton entre les paragraphes propres à v3)
• Correction de prononciation / pauses (traits d'union) → fonctionne sur v2 et v3

Pour approfondir les forces et faiblesses de chaque modèle, consultez notre guide : Conseils d'experts : v2 vs v3.

🎭 1. Guide complet des balises audio v3 (Émotions et effets sonores)

Les balises audio sont des commandes insérées entre crochets [ ] qui dictent « comment parler » en anglais.
Bien que les instructions officielles indiquent simplement que 'la balise influence la délivrance du texte qui suit',
à l'usage, on remarque que placée au début d'une phrase, elle définit le ton global, tandis que placée au milieu, elle déclenche un effet spécifique (rire, soupir, etc.) à cet instant précis.
(Ce ne sont pas des règles absolues, mais c'est la méthode la plus naturelle.)

Gardez à l'esprit ces deux points essentiels :

Les balises doivent être rédigées en anglais. (L'IA réagit beaucoup mieux à [whispers] qu'à son équivalent dans une autre langue.)
Les balises ne sont pas lues vocalement. Il s'agit d'instructions de jeu d'acteur ; le système ne prononcera pas "whispers".
(Ceci s'applique exclusivement à la version v3.)

① Balises de tonalité émotionnelle (idéales en début de phrase)

Balise	Signification / Effet	Utilisation recommandée
[excited]	Ton enthousiaste / joyeux	Annonce d'événements, présentation produit
[sad]	Ton mélancolique / triste	Narration émotionnelle, lecture de témoignages
[angry]	Ton en colère / véhément	Dialogues de personnages, scènes dramatiques
[whispers]	Chuchotements	Secrets, style ASMR, tension
[sarcastic]	Ton sarcastique / ironique	Contenu humoristique, personnalité de personnage
[curious]	Ton curieux / interrogatif	Narration sous forme de question
[nervous]	Ton nerveux / tremblant	Description de situations tendues
[calm]	Ton calme et posé	Méditation, tutoriels, guides

Exemple d'application (v3) :

[excited] Tout le monde, le nouveau produit est enfin arrivé !
[whispers] En fait, nous avons préparé une réduction spéciale uniquement pour aujourd'hui.

👉 La première phrase adopte un ton dynamique, tandis que la seconde baisse soudainement le volume pour un effet de confidence. C'est la force de la v3 : pouvoir faire varier l'interprétation au sein d'un même script.

② Balises d'effets sonores (non-verbaux) (à insérer dans la phrase)

Ici, il ne s'agit pas d'un ton, mais d'un véritable son. Ces balises déclenchent des expressions non-verbales (rires, soupirs, raclements de gorge) à l'endroit exact choisi.

Balise	Son produit	Position recommandée
[laughs]	Rire	Milieu ou fin de phrase
[chuckles]	Petit rire discret	Milieu ou fin de phrase
[sighs]	Soupir	Début ou milieu
[gasps]	Souffle court de surprise	Début de phrase
[clears throat]	Raclement de gorge	Début de phrase
[exhales]	Expiration (soupir de soulagement)	Milieu ou fin de phrase

Exemple d'application (v3) :

Ah, j'ai encore oublié ça. [sighs] Il va falloir que je recommence depuis le début.
Donc, ce que j'ai fait hier… [laughs] c'était une erreur complètement absurde.

📌 Conseil Sonetho : La modération est la clé ⚡
Bien qu'il soit possible de combiner certaines balises, surcharger une phrase peut rendre le ton instable (débit irrégulier, artefacts sonores) ou amener le système à ignorer les commandes.
D'après nos tests au Sonetho, la règle d'or est de limiter à une balise par phrase et de ne les placer qu'aux endroits stratégiques. La subtilité garantit le résultat le plus naturel.

🔤 2. Correction de la prononciation : quand les noms propres, l'anglais ou les chiffres posent problème

Même avec le meilleur prompt, si l'IA lit "ITSUB" comme "Aï-ti-soub", le résultat ne sera pas naturel. 😭
Les problèmes de prononciation relèvent d'un domaine totalement distinct du ton et de l'émotion ; ils nécessitent donc des solutions spécifiques.

Il existe trois méthodes principales pour corriger la prononciation.

① La transcription phonétique (la plus simple, immédiate)

Il suffit d'écrire le mot tel qu'il se prononce directement dans le prompt.

ChatGPT → Tchat-ji-pi-ti
API → A-pi-aï
2026 → deux mille vingt-six (si le modèle hésite sur la lecture des chiffres)

C'est la méthode la plus rapide pour un script ponctuel.

② Séparation par tirets

Lorsque deux syllabes fusionnent de manière erronée (par exemple, si un mot est lu comme un bloc compact), l'insertion d'un tiret permet de bien délimiter les sons.

쉰-일곱 / Tchat-ji-pi-ti / A-pi-aï

Le tiret permet non seulement de séparer la prononciation, mais aussi d'introduire une micro-pause naturelle. Nous aborderons cela plus en détail dans la section "Découpage et pauses" ci-dessous.

③ Dictionnaire de prononciation (indispensable pour les usages récurrents)

Si un nom propre revient fréquemment dans vos vidéos, la transcription manuelle devient vite fastidieuse.
Dans ce cas, enregistrez-le une seule fois dans le "Dictionnaire de prononciation" (Pronunciation Dictionary) de l'Sonetho. Ainsi, même si vous écrivez le mot normalement, l'IA le convertira automatiquement.

🚨 Erreur fréquente (préservez vos crédits !)
Dans le champ Alias du dictionnaire, vous pouvez utiliser la phonétique adaptée. Si vous souhaitez une lecture précise en anglais ou si le résultat est instable, utiliser l'orthographe phonétique anglaise est souvent plus fiable. ✅ ITSUB → Eat Sub (ou It Sub)

※ Attention : ne mettez pas de tirets dans l'Alias du dictionnaire. Une simple orthographe séparée par un espace (Eat Sub) suffit.
Le tiret (-) n'est pas un outil de dictionnaire, mais un outil de découpage et de ponctuation dans votre texte (voir section 3 ci-dessous).

La procédure détaillée, captures d'écran à l'appui, est disponible en moins d'une minute dans le Guide complet de correction de la prononciation Elevenlabs.
Si la prononciation reste erronée, commencez par là !

Notez que la v3 gère plus intelligemment les nombres et symboles inhabituels (par exemple, "$22" devient "vingt-deux dollars") que la v2.
Cependant, le modèle peut parfois hésiter entre un accent américain ou britannique sur certains mots anglais. Pour une cohérence absolue, verrouillez la prononciation via le dictionnaire.

⏸️ 3. Découpage et gestion du souffle : la magie de la ponctuation et des tirets

La ponctuation est sans doute l'outil le plus puissant de votre prompt.
L'IA utilise les signes que vous insérez pour décider où respirer, quelle durée marquer et sur quel ton conclure une phrase.

① Maîtriser la durée des pauses selon la ponctuation

Signe	Effet	Durée
Virgule ,	Pause légère, continuité	Courte
Point .	Fin de phrase, ton descendant	Moyenne
Retour à la ligne	Changement de paragraphe, reset du souffle	Longue
Point d'interrogation ?	Intonation montante	Moyenne
Point d'exclamation !	Intonation appuyée	Moyenne
Points de suspension …	Évocation, hésitation	Longue (en douceur)
Tiret -	Micro-coupure	Très courte

② Le tiret (-) — l'astuce secrète de l'Sonetho

Quand une virgule crée une pause trop longue, mais que l'absence de ponctuation fait fusionner les mots, le tiret comble ce "vide subtil".

Séparation phonétique : mot-mot → empêche la fusion indésirable des sons.
Micro-souffle : Alors,- donc- pour donner un rythme naturel entre les phrases.
Tension dramatique : C'est- tout- simplement- pour créer un effet de suspens.

Pour plus de détails, consultez notre Guide des meilleures pratiques utilisateurs. La règle d'or est simple : "utilisez un tiret au lieu d'une virgule" quand le rythme est trop lent.

📌 Note pour les utilisateurs de la v3 : le retour à la ligne est à double tranchant
La v3 a tendance à réinitialiser légèrement la voix à chaque retour à la ligne (changement de paragraphe).
Par conséquent, pour maintenir une tonalité constante sur de longs textes, minimisez les sauts de ligne. À l'inverse, si vous souhaitez changer radicalement d'ambiance entre deux scènes, utilisez-les délibérément. Choisissez selon votre intention.

③ Pauses précises — la méthode varie selon le modèle ⚡

Si vous avez besoin d'une pause chronométrée précise (ex: exactement 1 seconde), la méthode dépend entièrement du modèle utilisé (selon la documentation officielle).

Contexte	Méthode pour insérer une pause	Note
Modèle v3	[pause] · [short pause] · [long pause]	Balises audio entre crochets (spécifique v3)
v2 · Turbo · Flash	<break time="1.5s" />	Délai en secondes, ne fonctionne pas en v3
Studio (éditeur web)	Clic sur le bouton 'Insérer une pause' → Réglez la durée	Pas besoin de taper le code, le plus simple

🚨 Erreur courante : insérer des balises <break> dans un script v3
La v3 ignore purement et simplement les balises SSML <break>. Pour marquer une pause en v3, utilisez uniquement la balise [pause] ou les signes de ponctuation (… / —).
À l'inverse, la balise [pause] ne fonctionnera pas sur les modèles v2. Vérifiez toujours votre modèle avant d'ajouter des balises.

Si vous travaillez dans le Studio (éditeur web), évitez de taper le code manuellement : utilisez le bouton d'insertion de pause et réglez simplement la durée voulue.

※ Rappel : n'abusez pas des pauses — une multiplication excessive de silences peut rendre l'audio instable.

📋 4. Recueil de modèles de prompts (prêts à l'emploi)

Assez parlé de théorie. Voici des modèles que vous pouvez utiliser immédiatement.
Les balises entre crochets sont réservées à la version v3, tandis que la ponctuation classique, les traits d'union et la décomposition phonétique fonctionnent pour les versions v2 et v3.

① Narration informative pour YouTube

[curious] Dites, est-ce que vous saviez cela ?
Ce que je vais vous montrer aujourd'hui est-vraiment simple, mais les résultats sont garantis.
[excited] Alors, on commence tout de suite !

Astuce : Utilisez [curious] pour piquer la curiosité en introduction, et [excited] pour donner de l'énergie au cœur du sujet. Le trait d'union permet de marquer une courte pause respiratoire.
▶ Modèle recommandé : Eleven v3

② Doublage de personnage (jeu émotionnel)

[whispers] Tu ne dois le dire à personne…
[nervous] En fait, j'étais là ce jour-là.
[sighs] Ça ne servira à rien de regretter maintenant.

Astuce : Phrases courtes + balises d'émotion intenses = la force absolue de la v3. Idéal pour le doublage de personnages ou de webtoons.
▶ Modèle recommandé : Eleven v3

③ Publicité produit (environ 15 secondes)**

[excited] Une seule journée ! C’est à ce prix uniquement aujourd'hui.
Hésiter, c'est-ralentir votre livraison.
[calm] Faites dès maintenant le choix le plus intelligent.

Astuce : Gérez l'intensité avec une montée en tension, le message publicitaire, puis une conclusion calme. Écrivez les mots étrangers phonétiquement pour éviter les erreurs de prononciation.
▶ Modèle recommandé : Eleven v3

④ Guide calme / Instructions vocales

Bonjour, cher client.
Je vais maintenant vous guider, étape par étape, dans la procédure d'installation.
Tout d'abord, veuillez maintenir le bouton d'alimentation enfoncé, pendant trois secondes.

Astuce : Pas besoin de balises, utilisez simplement des virgules pour une diction claire. Pour les longs textes où la constance est primordiale, la v2 est plus stable.
▶ Modèle recommandé : Eleven Multilingual v2

✅ Check-list pour la rédaction de vos prompts

Si vous utilisez des balises d'émotion/effets → Avez-vous vérifié que le modèle est bien en v3 ?
Les balises sont-elles en anglais et limitées à une seule par phrase ?
Les mots étrangers, noms propres ou chiffres sont-ils écrits phonétiquement ou séparés par des traits d'union pour assurer la prononciation ?
Avez-vous enregistré les noms propres récurrents dans le dictionnaire de prononciation (Pronunciation Dictionary) avec leur graphie correcte ?
Si le ton devient instable sur un long texte → Avez-vous réduit les sauts de ligne ou basculé vers la v2 ?
Avez-vous écouté l'aperçu audio après la génération ? (On ne peut pas tout détecter visuellement !)

❓ FAQ — Questions fréquentes sur les prompts

Q. J'ai ajouté une balise comme [excited], mais l'IA lit le mot "excited" tel quel. Pourquoi ?
Il est très probable que vous utilisiez le modèle v2 (Multilingual v2).
Les balises audio sont converties en jeu d'acteur uniquement par la version Eleven v3 ; en v2, elles sont lues comme du texte. Changez le modèle pour la v3 et réessayez.

Q. Faut-il impérativement écrire les balises en anglais ? Les balises en français fonctionnent-elles ?
Certaines balises en français peuvent fonctionner, mais leur fiabilité est moindre.
Les balises de la v3 ont été entraînées sur l'anglais, il est donc fortement recommandé d'utiliser des termes anglais comme [whispers] ou [laughs].
Utilisez directement les balises des modèles ci-dessus.

Q. Les chiffres ou abréviations sont mal lus, quelle est la solution la plus rapide ?
Pour un texte unique, le plus rapide est d'écrire phonétiquement (par exemple, API → "A-P-I").
Si le mot revient souvent, enregistrez-le dans le dictionnaire de prononciation (dans la colonne 'Alias', utilisez l'orthographe correcte sans traits d'union).
Si la prononciation est agglutinée, l'utilisation de traits d'union dans votre texte est une solution miracle. Consultez le guide de correction phonétique pour plus de détails.

Q. Sur un long script, le ton change par moments. Peut-on l'éviter via les prompts ?
La v3 a tendance à reconfigurer la voix à chaque saut de ligne (paragraphe) ; réduire les sauts de ligne et regrouper le texte peut aider. Si le ton reste instable, passer à la v2, qui offre une meilleure constance vocale, est la solution la plus sûre.
Vous pouvez comparer les différences entre les modèles dans notre article Test comparatif v3 vs v2.

Q. Peut-on cumuler plusieurs balises d'émotion pour plus de richesse ?
Il est techniquement possible de combiner plusieurs balises.
Cependant, en abuser dans une même phrase rendra le ton instable (variations de vitesse, bruit de fond) ou elles seront tout simplement ignorées par le modèle.
La règle d'or est de n'utiliser qu'une seule balise par phrase, aux endroits cruciaux, pour un résultat naturel.

🎁 En conclusion

Récapitulons l'essentiel :

Les balises d'émotion/effets ([excited], [laughs]) sont exclusives à la v3, doivent être en anglais, et limitées à une par phrase.
La prononciation se règle dans cet ordre : transcription phonétique → traits d'union → dictionnaire de prononciation (Alias en orthographe exacte, sans traits d'union).
Le rythme se gère avec la ponctuation, les respirations avec des traits d'union, et les silences précis selon le modèle (v3 = balise [pause], v2 = <break>).
Si la voix devient instable sur un contenu long, réduisez les sauts de ligne ou passez en v2.

Elevenlabs, c'est finalement l'art de savoir "dompter" l'outil.
Selon la manière dont vous rédigez votre prompt, une même phrase passera d'une lecture monotone à une véritable interprétation d'acteur.

Copiez l'un des modèles ci-dessus, collez-le dans l'interface Text to Speech d'Elevenlabs et lancez l'aperçu :
Vous constaterez en moins d'une minute comment les balises se transforment en jeu d'acteur.
Gardez ces modèles et cette check-list en favoris pour vos prochains scripts.
Vos textes prendront vie avec une voix bien plus naturelle !

Nous reviendrons bientôt avec d'autres astuces utiles dans notre prochain article.
C'était Sonetho pour vous ⚡