Kompletny przewodnik po promptach ElevenLabs: Jak uzyskać idealny dźwięk?

Q: Wpisuję [excited], a AI czyta to jako „eksajted”. Dlaczego?

Używasz modelu v2 . Tag musisz wpisać w modelu v3 , aby zamienił się w grę aktorską.

"Dlaczego ten sam skrypt brzmi tak inaczej – wczoraj był idealny, a dziś brzmi dziwnie?"
To częsty dylemat każdego użytkownika ElevenLabs.
W rzeczywistości w 80% przypadków różnica tkwi w tym, jak sformułowałeś swój prompt (tekst wejściowy).

Witajcie w Sonetho ⚡

W ElevenLabs "prompt" to nic skomplikowanego – to po prostu tekst, który wklejasz do generatora mowy.
Kluczem do sukcesu jest zrozumienie, że ten tekst to nie tylko „zwykłe słowa”.

To samo zdanie: „To niesamowite”,
czytane bez instrukcji brzmi płasko,
ale dodanie odpowiedniego znacznika emocji sprawi, że głos zabrzmi jak u kogoś autentycznie zaskoczonego.
Jedna cyfra, kropka czy myślnik potrafią całkowicie zmienić finalny efekt.

Po niemal trzech latach codziennej pracy z modelami ElevenLabs
przygotował dziś kompleksowy przewodnik po tworzeniu skutecznych promptów.
Znajdziecie tu wszystko: tagi audio v3, korektę wymowy, pauzy, a także gotowe szablony do skopiowania. Zapraszamy do lektury!

📌 Na start: Prompt działa inaczej w zależności od modelu

Zanim przejdziemy do szczegółów, jedna ważna uwaga.
Opisywane poniżej "znaczniki audio" (audio tags), takie jak [excited] czy [laughs], działają wyłącznie w modelu Eleven v3.

Co się stanie, jeśli użyjesz ich w modelu Multilingual v2?
Model nie zamieni ich w „grę aktorską”, lecz potraktuje jak zwykły tekst (tagi zostaną po prostu odczytane jako słowa lub zignorowane). 😅
(Nasze testy porównawcze v2 i v3 dla języka polskiego znajdziecie w artykule Eleven v3 vs v2: Porównanie po polsku, gdzie udostępniliśmy 9 ścieżek audio).

Podsumowanie w pigułce:
• Emocje i efekty dźwiękowe → użyj v3
• Długie treści + stała barwa głosu → wybierz v2 (aby uniknąć subtelnych zmian tonu, które mogą wystąpić w v3 między akapitami)
• Korekta wymowy i pauzy (myślniki) → działają w obu modelach

Jeśli chcecie głębiej poznać różnice, koniecznie sprawdźcie artykuł Wskazówki użytkowników: v2 vs v3.

🎭 1. Kompendium tagów audio v3 (emocje i efekty)

Tagi audio to polecenia w nawiasach kwadratowych [ ], w których w języku angielskim instruujesz AI, jak ma brzmieć.
Choć oficjalnie mówimy, że wpływają na „sposób przekazu (delivery)”, z doświadczenia wiemy, że:
umieszczenie tagu przed zdaniem nadaje ton całości,
a wstawienie go w środku zdania dodaje konkretny efekt (śmiech, westchnienie itd.).

Pamiętajcie o dwóch kluczowych zasadach:

Tagi wpisujemy po angielsku. (Polskie [szept] zadziała gorzej niż angielskie [whispers]).
Tagi nie są czytane na głos. To instrukcje dla „aktora”, a nie słowa, które mają wybrzmieć (dotyczy to tylko modelu v3).

① Tagi emocjonalne (najlepiej działają na początku zdania)

Tag	Efekt	Kiedy używać
[excited]	Podekscytowany, entuzjastyczny	Zapowiedzi eventów, nowości
[sad]	Przygaszony, smutny	Narracja emocjonalna, opowiadania
[angry]	Zły, podenerwowany	Dialogi postaci, dramatyczne sceny
[whispers]	Szept	Sekrety, klimat ASMR, napięcie
[sarcastic]	Sarkastyczny, ironiczny	Humor, charakterystyczne role
[curious]	Ciekawy, pytający	Narracja w formie pytań
[nervous]	Zdenerwowany, drżący	Sceny pełne napięcia
[calm]	Spokojny, opanowany	Medytacje, instruktaże

Przykład użycia (v3):

[excited] Słuchajcie, w końcu wprowadzamy nasz nowy produkt!
[whispers] Tak między nami, tylko dzisiaj mamy specjalną zniżkę.

👉 Pierwsze zdanie brzmi entuzjastycznie, a drugie natychmiast zmienia barwę na konspiracyjny szept. To prawdziwa moc v3.

② Tagi dźwiękowe/pozawerbalne (wstawiamy wewnątrz zdania)

Te tagi generują autentyczny dźwięk, a nie tylko emocję.

Tag	Dźwięk	Miejsce wstawienia
[laughs]	Śmiech	Środek/koniec zdania
[chuckles]	Ciche zachichotanie	Środek/koniec zdania
[sighs]	Westchnienie	Początek/środek
[gasps]	Zaskoczenie (wciągnięcie powietrza)	Początek
[clears throat]	Odchrząknięcie	Początek
[exhales]	Wypuszczenie powietrza	Środek/koniec

Przykład użycia (v3):

O nie, znów o tym zapomniałem. [sighs] Muszę zacząć od początku.
Wczoraj zrobiłem coś głupiego… [laughs] aż wstyd przyznać.

📌 Wskazówka: Umiar jest kluczem ⚡
Możesz łączyć tagi, ale nie przesadzaj. Zbyt duża ich liczba w jednym zdaniu sprawi, że głos będzie brzmiał nienaturalnie lub tagi zostaną zignorowane. Zasada „jeden tag na zdanie” działa najlepiej.

🔤 2. Korekta wymowy: gdy nazwy własne brzmią źle

Nawet najlepszy prompt nie pomoże, jeśli AI przeczyta "Robert Lewandowski" jako "Rober Lewandowski". 😭
Problemy z wymową to inna kategoria niż emocje, więc rozwiązujemy je inaczej.

Oto trzy metody:

① Zapis fonetyczny (najszybsze rozwiązanie)

Po prostu wpisz słowo tak, jak się je wymawia w języku polskim.

YouTube → Jutub
API → Ej-pi-aj
2026 r. → dwa tysiące dwudziesty szósty rok (jeśli AI gubi się w liczbach)

② Rozdzielenie za pomocą myślników

Jeśli dwa słowa zlewają się w jedno, użyj myślnika, aby wymusić wyraźną artykulację.

siedem-dziesiąt / czat-GPT / ej-pi-aj

③ Słownik wymowy (niezbędny przy częstym używaniu nazw)

Jeśli nazwa własna powtarza się w wielu nagraniach, użyj "Pronunciation Dictionary". Wystarczy zarejestrować słowo raz, a AI zapamięta je na zawsze.

🚨 Błąd, który kosztuje kredyty!
W polu Alias wpisz wymowę. Jeśli chcesz, aby coś brzmiało po angielsku, często lepiej wpisać to fonetycznie po angielsku (np. ITSUB → Eat Sub).

※ Uwaga: W słowniku wymowy nie używamy myślników. Wpisujemy tylko czyste słowo (np. Eat Sub).
Myślnik (-) służy tylko do edycji tekstu wewnątrz edytora (patrz punkt 3).

Jak dodać własny słownik, sprawdzisz w naszym przewodniku po korekcie wymowy.

Model v3 świetnie radzi sobie z liczbami i symbolami (np. "$22" jako "dwadzieścia dwa dolary"). Jeśli jednak zależy Ci na stałym brzmieniu, użyj słownika.

⏸️ 3. Pauzy i oddech: magia interpunkcji i myślników

Interpunkcja to najsilniejsze narzędzie w Twoim prompcie.

① Długość pauz w zależności od znaków

Znak	Efekt	Długość pauzy
Przecinek ,	Krótka pauza	Krótka
Kropka .	Koniec zdania	Średnia
Nowa linia (Enter)	Reset oddechu	Długa
Wielokropek …	Zamyślenie	Długa (miękka)
Myślnik -	Bardzo krótka pauza	Bardzo krótka

② Myślnik (-) — nasz ulubiony trik

Gdy przecinek jest za długi, a brak znaku powoduje zlanie słów — użyj myślnika.

Rozdzielenie wymowy: siedem-dziesiąt → zapobiega zlewaniu.
Mikro-pauza: Cóż, więc- naturalne przejście.
Napięcie: To było-właśnie- budowanie oczekiwania.

📌 Uwaga użytkownicy v3: Nowa linia to miecz obosieczny
Model v3 „resetuje” nieco barwę głosu przy każdym nowym akapicie. Jeśli potrzebujesz długiej, spójnej narracji, ogranicz liczbę nowych linii.

③ Precyzyjne pauzy czasowe ⚡

Model	Sposób wstawiania pauzy
Model v3	[pause], [short pause], [long pause]
v2 / Turbo / Flash	<break time="1.5s" />
Studio (Edytor)	Przycisk 'Wstaw pauzę' (najwygodniej!)

🚨 Błąd: Używanie tagu <break> w modelu v3.
Model v3 go nie obsługuje. Używaj tagu [pause] lub interpunkcji (… / —).

📋 4. Gotowe szablony promptów

① Narracja wideo (YouTube)

[curious] Czy wiedzieliście o tym?
To, co dzisiaj pokażę-jest naprawdę proste, ale działa.
[excited] Zaczynajmy!

▶ Rekomendowany model: Eleven v3

② Dialogi postaci (emocje)

[whispers] Nikt nie może się dowiedzieć…
[nervous] Prawdę mówiąc, byłem tam tamtego dnia.
[sighs] Teraz już za późno na żal.

▶ Rekomendowany model: Eleven v3

③ Reklama produktu

[excited] Tylko dziś! Ostatnia szansa na tę cenę.
Dłuższe zastanawianie się-oznacza dłuższą dostawę.
[calm] Wybierz mądrze już teraz.

▶ Rekomendowany model: Eleven v3

④ Instruktaż / Audio-przewodnik

Dzień dobry.
Pokażę teraz, jak zainstalować urządzenie krok po kroku.
Najpierw przytrzymaj przycisk zasilania przez trzy sekundy.

▶ Rekomendowany model: Eleven Multilingual v2

❓ FAQ

Q. Wpisuję [excited], a AI czyta to jako „eksajted”. Dlaczego?
Używasz modelu v2. Tag musisz wpisać w modelu v3, aby zamienił się w grę aktorską.

Q. Czy muszę pisać po angielsku?
Tak, tagi v3 są trenowane na instrukcjach angielskich, więc [whispers] czy [laughs] zadziałają najstabilniej.

Q. Co jeśli długi tekst traci spójność tonu?
Ogranicz liczbę akapitów (nowych linii) lub przełącz się na model v2, który jest bardziej przewidywalny w długich formach.

🎁 Podsumowanie

Tagi emocjonalne ([excited], [laughs]) działają tylko w v3.
Wymowa: najpierw zapis fonetyczny, potem myślniki, na koniec słownik.
Pauzy: v3 używa [pause], starsze modele tagu <break>, edytor Studio ma dedykowany przycisk.

ElevenLabs to sztuka „treningu” AI. Jeden dobrze skonstruowany prompt dzieli przeciętne czytanie od profesjonalnego dubbingu.
Kopiujcie szablony, testujcie i słuchajcie wyników – Wasze treści zyskają zupełnie nową jakość!

Do usłyszenia w kolejnych wpisach!
Sonetho ⚡