[ElevenLabs Prompt-Guide] Warum klingt das gleiche Skript anders? Von v3-Emotions- & Sound-Tags bis hin zu Profi-Tipps für Aussprache und Pausen ⚡

Q: Ich habe Tags wie [excited] eingefügt, aber sie werden einfach mitgelesen. Warum?

Wahrscheinlich verwenden Sie das Modell v2 (Multilingual v2) . Audio-Tags werden nur in Eleven v3 in Schauspielkunst umgewandelt ; in v2 werden sie buchstäblich vorgelesen. Stellen Sie das Modell auf v3 um und versuchen Sie es erneut.

Q: Zahlen oder englische Abkürzungen werden ständig falsch ausgesprochen. Was ist die schnellste Lösung?

Für einmalige Texte ist die phonetische Umschreibung (z.B. API → "Ei-Pi-Ei") am schnellsten. Wenn sich Begriffe wiederholen, registrieren Sie diese im Aussprache-Lexikon als Alias (im Alias-Feld ohne Bindestrich, einfach 'Eat Sub'). Bei Silben, die ineinander verschwimmen, hilft ein Bindestrich (z.B. sieben-und-fünfzig) wahre Wunder. Weitere Details finden Sie im Guide zur Aussprachekorrektur .

Q: Bei langen Skripten verändert sich zwischendurch der Tonfall. Kann ich das per Prompt verhindern?

Da v3 bei jedem Zeilenumbruch (Absatz) die Stimme neu kalibriert , hilft es, weniger Umbrüche zu setzen und Texte in einem Block einzugeben. Sollte die Stimme weiterhin schwanken, ist der Wechsel auf v2 für eine durchgehende Konsistenz die sicherste Wahl. Einen direkten Vergleich der Modelle finden Sie im v3 vs. v2 Vergleichstest .

Q: Kann ich mehrere Emotions-Tags kombinieren?

Das Kombinieren von Tags ist zwar möglich , aber übertreiben Sie es nicht. Werden zu viele Tags in einen Satz gepackt, wird der Tonfall oft instabil (unnatürliches Tempo, Rauschen) oder die Tags werden einfach ignoriert. Als Faustregel gilt: Ein Tag pro Satz reicht völlig aus.

"Warum klingt dasselbe Skript heute anders als gestern?"
Das ist eine Erfahrung, die jeder ElevenLabs-Nutzer schon einmal gemacht hat.
Tatsächlich liegt die Ursache zu 80 % darin begründet, wie das „Prompt“ (die Texteingabe) gestaltet ist.

Hallo zusammen, hier ist das Sonetho ⚡

Bei ElevenLabs bedeutet ein „Prompt“ nichts Kompliziertes; es ist schlicht der Text, den Sie in Sprache umwandeln möchten.
Der entscheidende Punkt ist jedoch, dass dieser Text weit mehr als nur eine Ansammlung von Wörtern ist.

Nehmen wir den Satz „Das ist wirklich beeindruckend“:
Wird er einfach so eingegeben, klingt er neutral.
Setzt man jedoch ein emotionales Tag davor, klingt die Stimme plötzlich wie bei einer echten Überraschung.
Eine einzige Ziffer, ein Punkt oder ein Bindestrich können das Ergebnis dramatisch verändern.

Nachdem wir ElevenLabs nun seit fast drei Jahren täglich nutzen, tauchen wir heute tief in die „Kunst des Prompt-Schreibens“ ein.
Wir decken alles ab: v3-Audio-Tags, Aussprachekorrekturen, Pausensetzung und praktische Vorlagen, die Sie direkt kopieren und einfügen können. Bleiben Sie dran!

📌 Vorab: Prompts funktionieren je nach Modell unterschiedlich

Bevor wir zum Kern kommen, ein wichtiger Punkt:
Die „Audio-Tags“, die wir gleich vorstellen – also Befehle in eckigen Klammern wie [excited] oder [laughs] – funktionieren ausschließlich mit dem Eleven v3 Modell.

Was passiert, wenn Sie diese Tags bei v2 (Multilingual v2) verwenden?
Das Modell interpretiert die Tags nicht als Regieanweisung, sondern behandelt sie wie normalen Text (sie werden entweder vorgelesen oder ignoriert). 😅
(Einen direkten Vergleich, bei dem wir v2 und v3 mit denselben Sätzen getestet haben, finden Sie in unserem Beitrag Eleven v3 vs. v2 Sprachvergleich, inklusive 9 Hörbeispielen.)

Zusammenfassung in Kürze
• Emotions- & Soundeffekt-Tags nutzen → v3 (Offizieller Release 2026)
• Lange Inhalte & Stimmkonsistenz sind wichtig → Multilingual v2 (vermeidet die Tonalitätsschwankungen von v3)
• Echtzeit-Anwendung empfohlen → Flash oder Turbo v2.5
• Aussprachekorrekturen & Pausen (Bindestriche) → funktionieren bei v2 & v3 gleichermaßen

Wenn Sie tiefer in die Stärken und Schwächen der Modelle eintauchen möchten, werfen Sie einen Blick auf unseren Beitrag v2 vs. v3: Profi-Tipps aus der Praxis.

🎭 1. Überblick über v3-Audiotags (Emotionen & Soundeffekte)

Audiotags sind Befehle in eckigen Klammern [ ], die der KI vorgeben, „wie etwas gesagt werden soll“.
Die offizielle Empfehlung besagt, dass Tags die Art der Wiedergabe (Delivery) des darauffolgenden Textes beeinflussen.
In der Praxis zeigt sich jedoch: Wenn Sie den Tag vor einen Satz setzen, bestimmt er meist dessen gesamte Tonalität, während Tags innerhalb eines Satzes oft gezielte Effekte (wie Lachen oder Seufzen) auslösen.
(Das ist keine absolute Regel, aber so erzielen Sie meist die natürlichsten Ergebnisse.)

Beachten Sie vorab zwei wichtige Punkte:

Tags müssen auf Englisch eingegeben werden. (Das englische [whispers] funktioniert deutlich präziser als eine deutsche Entsprechung.)
Tags werden nicht mit vorgelesen. Es handelt sich lediglich um Regieanweisungen für den Sprecher, nicht um Text, der als „Whispers“ ausgegeben wird.
(Dies gilt spezifisch für v3.)

① Emotionale Tonalitäts-Tags (wirken am besten am Satzanfang)

Tag	Bedeutung / Effekt	Einsatzzweck
[excited]	aufgeregt / begeistert	Event-Ankündigungen, Produktpräsentationen
[sad]	gedrückt / traurig	Emotionale Narration, Geschichten
[angry]	verärgert / aufgebracht	Charakterdialoge, dramatische Szenen
[whispers]	geflüstert / leise	Geheimnisse, ASMR-Stil, Spannung
[sarcastic]	sarkastisch / spöttisch	Humor, charaktervolle Dialoge
[curious]	neugierig / interessiert	Fragegesteuerte Narration
[nervous]	nervös / zittrig	Darstellung von Anspannung
[calm]	ruhig / stabil	Meditation, Anleitungen

Anwendungsbeispiel (v3):

[excited] Leute, es ist endlich soweit: Das neue Produkt ist da!
[whispers] Und unter uns: Nur heute gibt es einen speziellen Rabatt.

👉 Der erste Satz klingt enthusiastisch und hoch, während der zweite Satz die Stimme senkt und flüsternd wirkt.
Genau das ist die Stärke der v3-Tags: die dramaturgische Gestaltung innerhalb eines Skripts.

② Soundeffekt-Tags (nicht-sprachlich, meist mitten im Satz)

Diese Tags erzeugen keine Stimmung, sondern echte Geräusche.
Sie fügen „nicht-sprachliche Äußerungen“ wie Lachen, Seufzen oder Räuspern direkt an der gewünschten Stelle ein.

Tag	Geräusch	Empfohlene Position
[laughs]	Lachen	Mitte oder Ende
[chuckles]	leises Kichern	Mitte oder Ende
[sighs]	Seufzer	Anfang oder Mitte
[gasps]	Überraschtes Einatmen	Satzanfang
[clears throat]	Räuspern	Satzanfang
[exhales]	Ausatmen	Mitte oder Ende

Anwendungsbeispiel (v3):

Oh nein, das habe ich glatt vergessen. [sighs] Ich muss wohl von vorne anfangen.
Wisst ihr, was mir gestern passiert ist? [laughs] Ein total peinlicher Fehler.

📌 Tipp vom Sonetho: Weniger ist mehr ⚡
Sie können Tags auch kombinieren.
Allerdings führt eine Überladung innerhalb eines einzelnen Satzes oft zu Instabilität (schwankende Geschwindigkeit, Hintergrundrauschen) oder dazu, dass die Tags schlicht ignoriert werden.
Unsere Erfahrung aus dem Sonetho zeigt: Bleiben Sie bei einem Tag pro Satz und setzen Sie ihn gezielt ein. Je dezenter, desto natürlicher klingt das Ergebnis.

🔤 2. Aussprache korrigieren: Wenn Eigennamen, Englisch oder Zahlen nicht stimmen

Egal wie gut dein Prompt ist – wenn die KI "ITSUB" als "It-Sub" (falsch betont) liest, ist das Ergebnis unbrauchbar. 😭
Ausspracheprobleme gehören in eine ganz andere Kategorie als Tonfall oder Emotionen, daher gibt es dafür eigene Lösungswege.

Es gibt drei Hauptmethoden, um die Aussprache zu optimieren:

① Lautschrift (der einfachste, schnelle Weg)

Schreibe das Wort einfach so, wie es phonetisch ausgesprochen werden soll.

ChatGPT → Tschat-Dschipi-Ti
API → Ei-Pi-Ei
2026 → zweitausendsechsundzwanzig (wenn die KI bei Zahlen stolpert)

Für ein Skript, das du nur einmal verwendest, ist das die schnellste Lösung.

② Aussprache durch Bindestriche trennen

Wenn zwei Silben unnatürlich ineinander verschmelzen, hilft ein Bindestrich, um die Aussprache sauber zu trennen.

Sinn-voll / Tschat-Dschipi-Ti / Ei-Pi-Ei

Bindestriche trennen nicht nur die Aussprache, sondern erzwingen auch eine sehr kurze Pause – dazu gleich mehr im Bereich „Pausen setzen“.

③ Aussprache-Wörterbuch (für wiederkehrende Begriffe essenziell)

Wenn dieselben Eigennamen in jedem Video vorkommen, ist manuelles Umschreiben auf Dauer mühsam.
In diesem Fall registrierst du den Begriff einmal im „Pronunciation Dictionary“ (Aussprache-Wörterbuch).
Danach kannst du den Originaltext verwenden und die KI ersetzt ihn automatisch beim Lesen.

🚨 Häufiger Fehler (schone dein Guthaben!)
Im Feld „Alias“ des Wörterbuchs kannst du die Lautschrift eingeben. Wenn du möchtest, dass englische Begriffe präzise ausgesprochen werden, ist die englische Schreibweise oft stabiler. ✅ ITSUB → Eat Sub (oder It Sub)

※ Wichtig: Verwende im Alias-Feld keine Bindestriche. Ein einfaches, getrennt geschriebenes Wort (Eat Sub) reicht völlig aus.
Der Bindestrich (-) ist kein Werkzeug für das Wörterbuch, sondern für die Textbearbeitung direkt im Skript (siehe Punkt 3).

Wie du ein solches Wörterbuch erstellst, habe ich inklusive Screenshots in unserem Sonetho Guide zur Aussprachekorrektur in 1 Minute zusammengefasst.
Wenn die Aussprache ständig fehlerhaft ist, schau zuerst dort nach!

Übrigens: v3 geht mit unbekannten Zahlen- und Symbolmustern (z. B. "$22" → "zweiundzwanzig Dollar") wesentlich flexibler um als v2.
Da es jedoch dazu neigen kann, innerhalb desselben Textes zwischen amerikanischem und britischem Englisch zu wechseln, solltest du bei konsistenter Aussprache das Wörterbuch nutzen, um den Standard festzulegen.

⏸️ 3. Pausen und Atemkontrolle: Die Magie von Satzzeichen und Bindestrichen

Das mächtigste Werkzeug im Prompting sind oft die Satzzeichen.
Die KI orientiert sich an deinen gesetzten Zeichen, um zu entscheiden, wo sie innehält, wie lange sie pausiert und mit welchem Tonfall sie einen Satz beendet.

① Wirkung der Satzzeichen auf die Pausenlänge

Zeichen	Effekt	Pausenlänge
Komma ,	Kurzes Innehalten	Kurz
Punkt .	Satzende, Ton senken	Mittel
Zeilenumbruch	Absatz, Atem resetten	Lang
Fragezeichen ?	Stimme anheben	Mittel
Ausrufezeichen !	Betonung, Energie	Mittel
Auslassungspunkte …	Nachdenklichkeit/Zögern	Lang (fließend)
Bindestrich -	Blitzschnelles Innehalten	Sehr kurz

② Bindestrich (-) — Der Geheimtipp aus dem Sonetho

Wenn ein Komma zu lang klingt, aber ohne Pause alles ineinander verschwimmt:
Der Bindestrich schließt genau diese „ungünstige Lücke“.

Aussprache trennen: Sinn-voll → Verhindert, dass Wörter zu einem Brei verschmelzen.
Mikropausen: Also, dann- erzeugt einen natürlichen Übergang zum nächsten Satz.
Spannung aufbauen: Das ist-genau- erzeugt durch kurzes Abhacken eine dramatische Wirkung.

Weitere Details zu dieser Technik findest du in unserem Guide für Power-User. „Bindestrich statt Komma“ ist der entscheidende Leitsatz.

📌 Wichtig für v3-Nutzer: Zeilenumbrüche sind zweischneidig
Bei v3 wird mit jedem Zeilenumbruch (Absatz) die Stimme minimal neu kalibriert.
Das bedeutet: Für eine konstante Tonalität in langen Texten solltest du Umbrüche minimieren und den Text in einem Block lassen. Wenn du hingegen zwischen Szenen die Stimmung stark verändern willst, sind gezielte Zeilenumbrüche dein bestes Werkzeug.

③ Präzise Pausen — Modell-spezifische Methoden ⚡

Wenn du eine exakte Pause benötigst (z. B. genau 1 Sekunde), unterscheidet sich das Vorgehen je nach Modell drastisch:

Modell	Pausen-Methode	Hinweis
v3	[pause] · [short pause] · [long pause]	Audio-Tags in Klammern — exklusiv für v3
v2 · Turbo · Flash	<break time="1.5s" />	Zeitbasierte Steuerung, funktioniert nicht in v3
Studio (Editor)	Button „Pause einfügen“ klicken → Zeit einstellen	Am einfachsten, kein manueller Code nötig

🚨 Häufigster Fehler: <break>-Tags in v3-Skripten
v3 unterstützt die SSML-Tags nicht und ignoriert sie einfach. Verwende für v3 unbedingt die [pause]-Tags oder die oben genannten Satzzeichen (… oder —).
Umgekehrt funktionieren [pause]-Tags nicht in v2-Modellen. Prüfe immer zuerst, welches Modell du nutzt.

Hinweis: Wer den Studio-Editor nutzt, muss keine Tags tippen. Über den Button „Pause einfügen“ lässt sich die Dauer visuell festlegen – das ist die komfortabelste Methode.

※ Vorsicht bei Übernutzung: Zu viele Pausen in einem Skript können die Audioqualität instabil machen.

📋 4. Praktische Prompt-Vorlagen (zum Kopieren)

Die Theorie beherrschen wir jetzt – hier sind direkt anwendbare Vorlagen für dich.
Tags in eckigen Klammern sind für v3 optimiert, während Satzzeichen, Bindestriche und phonetische Schreibweisen für sowohl v2 als auch v3 funktionieren.

① Informatives YouTube-Narrativ

[curious] Wussten Sie schon, dass es so einfach sein kann?
Was ich Ihnen heute zeige, ist-wirklich simpel, aber garantiert effektiv.
[excited] Fangen wir also direkt an!

Tipp: Erzeuge Neugier mit [curious] am Anfang und steigere die Spannung mit [excited] beim Einstieg ins Thema. Ein Bindestrich sorgt für eine kurze Atempause.
▶ Empfohlenes Modell: Eleven v3

② Charakter-Dialoge (Schauspielerische Emotionen)

[whispers] Du darfst es niemandem verraten…
[nervous] Eigentlich war ich an jenem Tag genau dort.
[sighs] Jetzt ist es ohnehin zu spät, es zu bereuen.

Tipp: Kurze Sätze + starke Emotions-Tags = die absolute Stärke von v3. Perfekt für Charakter-Synchronisationen oder Webtoons.
▶ Empfohlenes Modell: Eleven v3

③ Produktwerbung (ca. 15 Sekunden)

[excited] Nur für heute! Nur jetzt zu diesem Preis.
Zögern-verlängert nur die Lieferzeit.
[calm] Treffen Sie jetzt die klügere Wahl – intelligenter als ChatGPT.

Tipp: Kontrolle über die Dynamik durch Spannung → Werbetext → ruhigen Abschluss. Englische Begriffe phonetisch umschreiben, um Aussprachefehler zu vermeiden.
▶ Empfohlenes Modell: Eleven v3

④ Ruhiger Leitfaden / Ansagen

Guten Tag.
Ich werde Sie nun schrittweise durch die Installation führen.
Bitte halten Sie zuerst die Ein-Aus-Taste für drei Sekunden gedrückt.

Tipp: Ohne Tags, nur mit Kommas für eine klare, deutliche Artikulation. Für lange Anleitungen, bei denen Konsistenz wichtig ist, ist v2 stabiler.
▶ Empfohlenes Modell: Eleven Multilingual v2

✅ Checkliste für das Prompting

Nutzt du Emotions- oder Sound-Tags? → Ist das Modell auf v3 eingestellt?
Sind die Tags auf Englisch und auf maximal einen Tag pro Satz beschränkt?
Wurden englische Begriffe, Eigennamen oder Zahlen phonetisch oder mit Bindestrichen angepasst?
Wurden wiederkehrende Eigennamen im Aussprache-Lexikon als Alias (in lateinischen Buchstaben) hinterlegt?
Klingt die Stimme bei langen Inhalten instabil? → Zeilenumbrüche reduzieren oder auf v2 wechseln.
Hast du nach der Generierung einmal kurz reingehört? (Nur beim Lesen übersieht man Fehler!)

❓ FAQ — Häufige Fragen zum Prompting

F: Ich habe Tags wie [excited] eingefügt, aber sie werden einfach mitgelesen. Warum?
Wahrscheinlich verwenden Sie das Modell v2 (Multilingual v2). Audio-Tags werden nur in Eleven v3 in Schauspielkunst umgewandelt; in v2 werden sie buchstäblich vorgelesen. Stellen Sie das Modell auf v3 um und versuchen Sie es erneut.

F: Muss ich die Tags unbedingt auf Englisch schreiben? Gehen auch deutsche Begriffe wie [flüstern]?
Deutsche Tags funktionieren manchmal, sind aber instabil. Da v3 auf englischen Tags basiert, empfehlen wir dringend, Begriffe wie [whispers] oder [laughs] auf Englisch zu verwenden. Die Tabelle oben ist bereits darauf optimiert.

F: Zahlen oder englische Abkürzungen werden ständig falsch ausgesprochen. Was ist die schnellste Lösung?
Für einmalige Texte ist die phonetische Umschreibung (z.B. API → "Ei-Pi-Ei") am schnellsten. Wenn sich Begriffe wiederholen, registrieren Sie diese im Aussprache-Lexikon als Alias (im Alias-Feld ohne Bindestrich, einfach 'Eat Sub'). Bei Silben, die ineinander verschwimmen, hilft ein Bindestrich (z.B. sieben-und-fünfzig) wahre Wunder. Weitere Details finden Sie im Guide zur Aussprachekorrektur.

F: Bei langen Skripten verändert sich zwischendurch der Tonfall. Kann ich das per Prompt verhindern?
Da v3 bei jedem Zeilenumbruch (Absatz) die Stimme neu kalibriert, hilft es, weniger Umbrüche zu setzen und Texte in einem Block einzugeben. Sollte die Stimme weiterhin schwanken, ist der Wechsel auf v2 für eine durchgehende Konsistenz die sicherste Wahl. Einen direkten Vergleich der Modelle finden Sie im v3 vs. v2 Vergleichstest.

F: Kann ich mehrere Emotions-Tags kombinieren?
Das Kombinieren von Tags ist zwar möglich, aber übertreiben Sie es nicht. Werden zu viele Tags in einen Satz gepackt, wird der Tonfall oft instabil (unnatürliches Tempo, Rauschen) oder die Tags werden einfach ignoriert. Als Faustregel gilt: Ein Tag pro Satz reicht völlig aus.

🎁 Fazit

Hier noch einmal die wichtigsten Punkte auf einen Blick:

Emotions-/Sound-Tags ([excited], [laughs]) sind nur für v3 (auf Englisch, max. 1 Tag pro Satz).
Aussprache-Probleme: Erst phonetisch umschreiben → dann Bindestriche → zum Schluss das Aussprache-Lexikon (Alias in Buchstaben, ohne Bindestrich).
Satzbau: Pausen durch Satzzeichen oder Bindestriche für kurze Atemzüge. Präzise Pausen je nach Modell ([pause] bei v3, <break> bei v2, Pausen-Button im Studio – nicht übertreiben).
Bei Instabilität in langen Texten: Zeilenumbrüche reduzieren oder zu v2 wechseln.

Elevenlabs ist im Grunde ein Kampf darum, wie gut man das Modell „lenken“ kann. Mit den richtigen Prompts wird aus einem einfachen Text eine echte schauspielerische Darbietung.

Probieren Sie eine der Vorlagen direkt im Text-zu-Sprache-Eingabefeld aus und hören Sie den Unterschied. Sie werden sofort merken, wie die Tags in lebendige Sprache umgewandelt werden. Speichern Sie diesen Guide als Lesezeichen – er wird Ihre Skripte spürbar lebendiger machen!

Im nächsten Beitrag gibt es weitere wertvolle Tipps für Sie.
Das war das Sonetho ⚡