"Neden aynı metni kullandığım halde, dünkü sonuçla bugünkü sonuç birbirinden farklı tınlıyor?"
ElevenLabs kullanıcılarının en az bir kez karşılaştığı bir durumdur.
Aslında bu farkın %80'i, 'istemi (metin girişini) nasıl kurguladığınıza' bağlıdır.
Merhaba, biz Sonetho ⚡
ElevenLabs'te 'istemi (prompt)' dendiğinde aklınıza karmaşık şeyler gelmesin; seslendirilmek üzere girdiğiniz metnin ta kendisinden bahsediyoruz.
Ancak işin püf noktası, bu metinlerin sadece birer 'karakter yığını' olmamasıdır.
Aynı "Bu gerçekten harika" cümlesini ele alalım;
Sıradan bir şekilde girdiğinizde düz bir tonda okunur,
Ancak başına bir duygu etiketi eklediğinizde, gerçekten şaşırmış bir ses tonuyla seslendirilir.
Küçük bir rakam, bir nokta veya bir tire işareti bile sonucu tamamen değiştirebilir.
Yaklaşık 3 yıldır her gün ElevenLabs'i en ince detayına kadar inceledikten sonra,
Bugün sadece 'istemi yazım tekniklerine' odaklanacağız.
v3 ses etiketleri, telaffuz düzeltmeleri, duraksamalar ve kopyalayıp doğrudan kullanabileceğiniz pratik şablonlara kadar her şeyi bu rehbere sığdırdık, sonuna kadar okumayı unutmayın!
📌 Öncelikle: İstemler, 'modele' göre farklı çalışır
Konuya girmeden önce önemli bir noktayı netleştirelim.
Şimdi tanıtacağımız 'ses etiketleri (audio tags)' — yani [excited] veya [laughs] gibi köşeli parantezli komutlar — yalnızca Eleven v3 modelinde çalışır.
Peki, bu etiketleri v2 (Multilingual v2) modeline eklerseniz ne olur?
Model, etiketi bir 'duygu'ya dönüştürmez; aksine bu etiketleri yorumlayamadığı için normal metin gibi okur (etiketleri ya harfiyen seslendirir ya da görmezden gelir). 😅
(Aynı cümle üzerinde v2 ve v3'ü karşılaştırdığı deneye Eleven v3 vs v2 karşılaştırma içeriğimizden 9 farklı ses kaydıyla göz atabilirsiniz.)
Özetle
• Duygu ve efekt etiketlerini kullanmak istiyorsanız → v3 (2026'da genel kullanıma açılacaktır)
• Uzun içerik + ses tutarlılığı kritikse → v2 (v3'ün paragraf bazlı ton değişimlerinden kaçınmak için)
• Telaffuz düzeltme ve duraksama (tire kullanımı) ise → hem v2 hem de v3 için geçerlidir
Model bazlı güçlü ve zayıf yönleri daha derinlemesine incelemek isterseniz, kullanıcıların v2 vs v3 deneyimleri yazımıza da göz atabilirsiniz.
🎭 1. Guia Completo das Tags de Áudio v3 (Emoções e Efeitos Sonoros)
As tags de áudio são comandos inseridos entre colchetes [ ] que instruem o modelo sobre "como falar".
Embora a recomendação oficial indique que 'as tags influenciam a entrega do texto que as segue',
testes práticos mostram que, quando colocadas no início da frase, definem o tom geral, e quando inseridas no meio, inserem efeitos pontuais (risadas, suspiros, etc.).
(Não são regras rígidas, mas esta é a forma mais natural de utilizá-las.)
Lembre-se de dois pontos fundamentais:
As tags devem ser escritas em inglês. (Comandos como [whispers] funcionam muito melhor do que equivalentes em outros idiomas).
As tags não são convertidas em fala. Elas são instruções de performance e não serão lidas em voz alta.
(Este comportamento é exclusivo da versão v3).
① Tags de Tom Emocional (funcionam melhor no início da frase)
Tag | Significado / Efeito | Uso recomendado |
|---|---|---|
[excited] | Entusiasmado | Anúncios, lançamentos de produtos |
[sad] | Melancólico / Triste | Narração emotiva, leitura de contos |
[angry] | Irritado / Intenso | Diálogos de personagens, cenas dramáticas |
[whispers] | Sussurro | Segredos, estilo ASMR, suspense |
[sarcastic] | Irônico / Sarcástico | Conteúdo humorístico, personalidade de personagens |
[curious] | Curioso / Indagador | Narração interrogativa |
[nervous] | Nervoso / Trêmulo | Cenas de tensão |
[calm] | Calmo / Estável | Meditação, guias de voz |
Exemplo prático de entrada (v3):
[excited] Pessoal, nosso novo produto finalmente foi lançado!
[whispers] Na verdade, preparamos um desconto especial apenas para hoje.
👉 A primeira frase começa com energia elevada, enquanto a segunda reduz o tom para um sussurro. Essa capacidade de alternar a interpretação dentro do mesmo roteiro é o verdadeiro diferencial das tags na v3.
② Tags de Efeitos (Não verbais - insira no meio da frase)
Estas tags não definem um 'tom', mas produzem sons reais.
Elas adicionam ruídos não verbais, como risadas, suspiros ou pigarros, no momento exato em que são inseridas.
Tag | Som produzido | Posição sugerida |
|---|---|---|
[laughs] | Risada | Meio ou final da frase |
[chuckles] | Risada leve / contida | Meio ou final da frase |
[sighs] | Suspiro | Início ou meio da frase |
[gasps] | Suspiro de surpresa (ofego) | Início da frase |
[clears throat] | Pigarro | Início da frase |
[exhales] | Expiração | Meio ou final da frase |
Exemplo prático de entrada (v3):
Ah, esqueci de novo. [sighs] Vou ter que começar tudo do zero.
Então, o que eu fiz ontem foi... [laughs] cometi um erro inacreditável.
📌 Dica do Sonetho: Menos é mais ⚡
Você pode combinar várias tags, mas evite o excesso.
Empilhar muitas tags em uma única frase pode tornar o tom instável (velocidade inconsistente, ruídos) ou resultar na ignorância do comando pelo sistema.
Nossa recomendação baseada em testes é utilizar uma tag por frase, inserindo-as apenas onde forem realmente essenciais. Quanto menos, mais natural.
🔤 2. Pronunciation Correction: Handling Proper Nouns, English, and Numbers
No matter how well you craft your prompt, it’s all for nothing if the AI misreads "ITSUB" as "It-sub". 😭
Pronunciation issues are distinct from tone and emotion, so they require a different approach.
There are three main ways to fix pronunciation.
① Phonetic Spelling (Simple & Immediate)
The easiest way is to simply write out the word phonetically as you want it to be heard in the prompt.
ChatGPT → Chat G P T
API → A P I
2026 → twenty twenty-six (If numbers aren't reading correctly)
This is the fastest method for one-off scripts.
② Using Hyphens for Phrasing
When two words blend together awkwardly (e.g., if a word sounds like it’s being mashed into another), adding a hyphen between them creates a clean break.
twenty-seven / Chat-GPT / A-P-I
Hyphens handle both separation and a subtle micro-pause. We’ll cover this in more detail in the 'Pausing' section below.
③ Pronunciation Dictionary (Essential for Recurring Terms)
If the same proper noun appears in every video, retyping it phonetically every time is a waste of effort.
In this case, register it once in the 'Pronunciation Dictionary', and the AI will automatically convert it even when you use the original spelling in your source text.
🚨 Common Mistake (Save your credits!)
In the Alias field of the pronunciation dictionary, you can use local language characters if you want the specific local pronunciation. However, if you want a clear English reading or find the output unstable, using phonetically spelled-out English is much more reliable. ✅ ITSUB → Eat Sub (or It Sub)
※ Tip: Do not include hyphens in the Pronunciation Dictionary Alias. Just use spaced-out letters (Eat Sub).
The hyphen (-) is a tool for pausing/separating within your main script, not for the dictionary (see section 3 below).
Check out our Sonetho Guide to Pronunciation Correction, which includes screenshots for a 1-minute setup.
If your pronunciation keeps breaking, start there!
Note that v3 handles unfamiliar number and symbol patterns (e.g., "$22" → "twenty-two dollars") much more flexibly than v2.
However, it may occasionally toggle between US and UK English pronunciations for the same word, so if consistency is critical, locking it down in the Pronunciation Dictionary is the safest bet.
⏸️ 3. Pausing & Breath Control: The Magic of Punctuation and Hyphens
Surprisingly, punctuation is the most powerful tool in your prompt. The AI uses the marks you include to decide where to pause, for how long, and with what tone to finish.
① Feeling the 'Pause Duration' by Punctuation
Mark | Effect | Duration |
|---|---|---|
Comma , | Short, flowing break | Short |
Period . | Sentence end, tone drops | Medium |
Line Break (Enter) | Paragraph split, reset breath | Long |
Question Mark ? | Rising intonation | Medium |
Exclamation ! | Adds emphasis | Medium |
Ellipsis … | Lingering, hesitation | Long (soft) |
Hyphen - | Fractional break | Very Short |
② The Hyphen (-) — Sonetho’s Favorite Pro Tip
Use a hyphen when a comma makes the pause feel too long and unnatural, but omitting it causes the words to slur together.
It fills that 'perfect gap'.
Separation: twenty-seven → Prevents words from mashing together
Micro-breath: Well, then- gives a natural lead-in to the next sentence
Building Tension: It is-in fact- creates a deliberate, rhythmic cadence
Our User Tips Guide covers this in more depth. The golden rule: "Use hyphens instead of commas."
📌 For v3 Users: Line Breaks are a Double-Edged Sword
v3 tends to slightly re-adjust the voice model at every line break. If you want a perfectly consistent tone throughout a long script, minimize line breaks. Conversely, if you want to shift the mood between scenes, use line breaks intentionally. Use them according to your creative goal.
③ Precise Pausing — It Depends on the Model ⚡
When you need exact timing (e.g., "Pause for exactly 1 second"), the method changes depending on the model you use. (Based on official documentation):
Context | Method | Note |
|---|---|---|
v3 Model | [pause] · [short pause] · [long pause] | Bracketed audio tags — v3 exclusive |
v2 · Turbo · v2.5 | <break time="1.5s" /> | Seconds-based, ignored in v3 |
Studio (Web Editor) | Click 'Insert Pause' button → Set time | No typing required, most convenient |
🚨 Most Common Mistake: Using <break> tags in v3 scripts
v3 does not support SSML break tags and will simply ignore them. To pause in v3, use [pause] tags or the ellipses(…) and dashes(—) mentioned in the punctuation table. Conversely, [pause] won't work for v2, so use <break> instead. Always confirm your model first.
Note that if you are working in Studio, you don't need to manually type tags; just use the Insert Pause button in the editor and select your duration—it’s the easiest workflow.
※ Regardless of the method, don't overdo it—too many pauses in one script can make the audio output unstable.
📋 4. Praktische Prompt-Vorlagen (zum Kopieren)
Die Theorie ist klar. Hier sind sofort einsetzbare Vorlagen für Sie.
Tags in eckigen Klammern beziehen sich auf v3, während Satzzeichen, Bindestriche und phonetische Umschreibungen für v2 und v3 gleichermaßen funktionieren.
① Informative YouTube-Narration
[curious] Wussten Sie schon, dass es so einfach geht?
Was ich Ihnen heute zeige, ist-wirklich simpel, aber hocheffektiv.
[excited] Also, fangen wir direkt an!
Tipp: Einleitung mit [curious] für Neugier, Hauptteil mit [excited] für Energie. Bindestriche sorgen für eine kurze Atempause.
▶ Empfohlenes Modell: Eleven v3
② Charakter-Dialoge (Emotionales Schauspiel)
[whispers] Du darfst das niemandem verraten…
[nervous] Eigentlich war ich an diesem Tag vor Ort.
[sighs] Es bringt wohl nichts mehr, das jetzt zu bereuen.
Tipp: Kurze Sätze + starke emotionale Tags = die Stärke von v3. Perfekt für Charakter-Synchronisation oder Webtoons.
▶ Empfohlenes Modell: Eleven v3
③ Produktwerbung (ca. 15 Sekunden)
[excited] Nur für heute! Nur jetzt zum Aktionspreis.
Zögern-kostet nur Zeit.
[calm] Treffen Sie jetzt die klügere Wahl.
Tipp: Spannungsaufbau → Kernbotschaft → ruhiger Abschluss. Englische Begriffe phonetisch ausschreiben, um Aussprachefehler zu vermeiden.
▶ Empfohlenes Modell: Eleven v3
④ Sachliche Anleitung / Voiceover
Hallo zusammen.
Ich führe Sie Schritt für Schritt durch die Installation.
Drücken Sie zunächst den Power-Knopf für drei Sekunden.
Tipp: Keine Tags, nur Kommas für klare Struktur. Bei langen Texten, wo Konsistenz entscheidend ist, ist v2 stabiler.
▶ Empfohlenes Modell: Eleven Multilingual v2
✅ Checkliste für Ihre Prompts
Emotionale/Sound-Tags geplant? → Ist das Modell auf v3 eingestellt?
Tags sind auf Englisch und auf einen pro Satz begrenzt?
Englische Begriffe, Eigennamen oder Zahlen wurden phonetisch oder mit Bindestrichen optimiert?
Wiederkehrende Eigennamen wurden im Aussprache-Wörterbuch (Pronunciation Dictionary) hinterlegt?
Bei langen Texten schwankt der Ton? → Zeilenumbrüche reduzieren oder auf v2 wechseln.
Nach der Generierung kurz probegehört? (Nur beim Lesen übersieht man Fehler!)
❓ FAQ — Häufig gestellte Fragen
Q. Ich habe [excited] eingefügt, aber die KI liest das Wort einfach vor. Warum?
Wahrscheinlich verwenden Sie das Modell Multilingual v2.
Audio-Tags werden nur in Eleven v3 in Schauspiel umgewandelt. In v2 wird der Text einfach vorgelesen. Stellen Sie das Modell auf v3 um und versuchen Sie es erneut.
Q. Müssen Tags zwingend auf Englisch sein?
Englische Tags sind der Standard, da die KI darauf trainiert wurde. Tags wie [whispers] oder [laughs] funktionieren am zuverlässigsten. Nutzen Sie einfach die Vorlagen aus diesem Guide.
Q. Zahlen oder Abkürzungen werden falsch ausgesprochen. Was ist die schnellste Lösung?
Für Einmal-Skripte ist das phonetische Ausschreiben (z. B. "API" → "Äi-Pi-Ei") am effektivsten.
Bei wiederkehrenden Begriffen nutzen Sie das Aussprache-Wörterbuch (Alias: ohne Bindestriche, z. B. 'Eat Sub').
Wenn Wörter ineinander verschwimmen, hilft ein Bindestrich (z. B. "fünf-und-siebzig") Wunder. Weitere Details finden Sie in unserem Guide zur Aussprache-Optimierung.
Q. Der Ton ändert sich bei langen Skripten. Kann man das verhindern?
v3 neigt dazu, bei jedem Zeilenumbruch (Absatz) den Ton neu zu kalibrieren. Reduzieren Sie die Umbrüche oder fassen Sie Sätze zusammen. Wenn es weiterhin schwankt, ist v2 aufgrund der höheren Stimmkonsistenz die sicherere Wahl.
Vergleiche dazu unser Experiment: v3 vs. v2.
Q. Werden mehrere Emotions-Tags kombiniert noch ausdrucksstärker?
Sie können Tags kombinieren, aber Vorsicht: Zu viele Tags in einem Satz führen oft zu Instabilität (Geschwindigkeitsschwankungen oder Rauschen) oder werden schlicht ignoriert. Ein Tag pro Satz ist die sicherste und natürlichste Methode.
🎁 Fazit
Hier das Wichtigste zusammengefasst:
Emotions-Tags ([excited], [laughs]) sind v3-exklusiv (Englisch, max. einer pro Satz).
Aussprache-Korrektur: Phonetisch ausschreiben → Bindestriche → Wörterbuch-Eintrag.
Pausen: Satzzeichen für Struktur, Bindestriche für Mikro-Pausen, v3-spezifische Pausen-Tags ([pause]) oder v2-Breaks nur sparsam einsetzen.
Lange Texte: Bei Tonschwankungen Zeilenumbrüche reduzieren oder zu v2 wechseln.
ElevenLabs zu beherrschen ist eine Frage der "künstlerischen Anleitung". Mit dem richtigen Prompt wird aus einem einfachen Text eine echte, lebendige Synchronisation.
Kopieren Sie einfach eine der Vorlagen in das Text-zu-Sprache-Eingabefeld von ElevenLabs und hören Sie selbst – Sie werden den Unterschied in weniger als einer Minute merken. Speichern Sie diese Checkliste, um Ihre Skripte jedes Mal aufs Neue zu perfektionieren!
Wir sehen uns im nächsten Guide mit weiteren Tipps.
Ihr Sonetho ⚡