Kompletny przewodnik po promptach ElevenLabs: Jak uzyskać idealny dźwięk?

Poznaj najlepsze techniki tworzenia promptów w ElevenLabs. Wyjaśniamy, jak używać tagów emocji i efektów dźwiękowych w modelu v3, jak korygować wymowę oraz kontrolować pauzy za pomocą tagów break, kropek i myślników. W naszym poradniku znajdziesz sprawdzone szablony promptów do wykorzystania w YouTube, dubbingu postaci czy reklamach, dzięki którym Twój lektor będzie brzmiał naturalnie i profesjonalnie. Zoptymalizuj swoje treści audio już dziś.

"Dlaczego ten sam skrypt brzmi tak inaczej – wczoraj był idealny, a dziś brzmi dziwnie?"

To częsty dylemat każdego użytkownika ElevenLabs.
W rzeczywistości w 80% przypadków różnica tkwi w tym, jak sformułowałeś swój prompt (tekst wejściowy).

Witajcie w Sonetho

W ElevenLabs "prompt" to nic skomplikowanego – to po prostu tekst, który wklejasz do generatora mowy.
Kluczem do sukcesu jest zrozumienie, że ten tekst to nie tylko „zwykłe słowa”.

 

To samo zdanie: „To niesamowite”,
czytane bez instrukcji brzmi płasko,
ale dodanie odpowiedniego znacznika emocji sprawi, że głos zabrzmi jak u kogoś autentycznie zaskoczonego.
Jedna cyfra, kropka czy myślnik potrafią całkowicie zmienić finalny efekt.

 

Po niemal trzech latach codziennej pracy z modelami ElevenLabs
przygotował dziś kompleksowy przewodnik po tworzeniu skutecznych promptów.
Znajdziecie tu wszystko: tagi audio v3, korektę wymowy, pauzy, a także gotowe szablony do skopiowania. Zapraszamy do lektury!

 


📌 Na start: Prompt działa inaczej w zależności od modelu

Zanim przejdziemy do szczegółów, jedna ważna uwaga.
Opisywane poniżej "znaczniki audio" (audio tags), takie jak [excited] czy [laughs], działają wyłącznie w modelu Eleven v3.

 

Co się stanie, jeśli użyjesz ich w modelu Multilingual v2?
Model nie zamieni ich w „grę aktorską”, lecz potraktuje jak zwykły tekst (tagi zostaną po prostu odczytane jako słowa lub zignorowane). 😅
(Nasze testy porównawcze v2 i v3 dla języka polskiego znajdziecie w artykule Eleven v3 vs v2: Porównanie po polsku, gdzie udostępniliśmy 9 ścieżek audio).

 

Podsumowanie w pigułce:
Emocje i efekty dźwiękowe → użyj v3
Długie treści + stała barwa głosu → wybierz v2 (aby uniknąć subtelnych zmian tonu, które mogą wystąpić w v3 między akapitami)
Korekta wymowy i pauzy (myślniki) → działają w obu modelach

Jeśli chcecie głębiej poznać różnice, koniecznie sprawdźcie artykuł Wskazówki użytkowników: v2 vs v3.

 


🎭 1. Kompendium tagów audio v3 (emocje i efekty)

Tagi audio to polecenia w nawiasach kwadratowych [ ], w których w języku angielskim instruujesz AI, jak ma brzmieć.
Choć oficjalnie mówimy, że wpływają na „sposób przekazu (delivery)”, z doświadczenia wiemy, że:
umieszczenie tagu przed zdaniem nadaje ton całości,
a wstawienie go w środku zdania dodaje konkretny efekt (śmiech, westchnienie itd.).

 

Pamiętajcie o dwóch kluczowych zasadach:

  • Tagi wpisujemy po angielsku. (Polskie [szept] zadziała gorzej niż angielskie [whispers]).

  • Tagi nie są czytane na głos. To instrukcje dla „aktora”, a nie słowa, które mają wybrzmieć (dotyczy to tylko modelu v3).

 

① Tagi emocjonalne (najlepiej działają na początku zdania)

Tag

Efekt

Kiedy używać

[excited]

Podekscytowany, entuzjastyczny

Zapowiedzi eventów, nowości

[sad]

Przygaszony, smutny

Narracja emocjonalna, opowiadania

[angry]

Zły, podenerwowany

Dialogi postaci, dramatyczne sceny

[whispers]

Szept

Sekrety, klimat ASMR, napięcie

[sarcastic]

Sarkastyczny, ironiczny

Humor, charakterystyczne role

[curious]

Ciekawy, pytający

Narracja w formie pytań

[nervous]

Zdenerwowany, drżący

Sceny pełne napięcia

[calm]

Spokojny, opanowany

Medytacje, instruktaże

 

Przykład użycia (v3):

[excited] Słuchajcie, w końcu wprowadzamy nasz nowy produkt!
[whispers] Tak między nami, tylko dzisiaj mamy specjalną zniżkę.

👉 Pierwsze zdanie brzmi entuzjastycznie, a drugie natychmiast zmienia barwę na konspiracyjny szept. To prawdziwa moc v3.

 

② Tagi dźwiękowe/pozawerbalne (wstawiamy wewnątrz zdania)

Te tagi generują autentyczny dźwięk, a nie tylko emocję.

Tag

Dźwięk

Miejsce wstawienia

[laughs]

Śmiech

Środek/koniec zdania

[chuckles]

Ciche zachichotanie

Środek/koniec zdania

[sighs]

Westchnienie

Początek/środek

[gasps]

Zaskoczenie (wciągnięcie powietrza)

Początek

[clears throat]

Odchrząknięcie

Początek

[exhales]

Wypuszczenie powietrza

Środek/koniec

 

Przykład użycia (v3):

O nie, znów o tym zapomniałem. [sighs] Muszę zacząć od początku.
Wczoraj zrobiłem coś głupiego… [laughs] aż wstyd przyznać.

 

📌 Wskazówka: Umiar jest kluczem ⚡
Możesz łączyć tagi, ale nie przesadzaj. Zbyt duża ich liczba w jednym zdaniu sprawi, że głos będzie brzmiał nienaturalnie lub tagi zostaną zignorowane. Zasada „jeden tag na zdanie” działa najlepiej.

 


🔤 2. Korekta wymowy: gdy nazwy własne brzmią źle

Nawet najlepszy prompt nie pomoże, jeśli AI przeczyta "Robert Lewandowski" jako "Rober Lewandowski". 😭
Problemy z wymową to inna kategoria niż emocje, więc rozwiązujemy je inaczej.

 

Oto trzy metody:

① Zapis fonetyczny (najszybsze rozwiązanie)

Po prostu wpisz słowo tak, jak się je wymawia w języku polskim.

  • YouTubeJutub

  • APIEj-pi-aj

  • 2026 r.dwa tysiące dwudziesty szósty rok (jeśli AI gubi się w liczbach)

 

② Rozdzielenie za pomocą myślników

Jeśli dwa słowa zlewają się w jedno, użyj myślnika, aby wymusić wyraźną artykulację.

siedem-dziesiąt / czat-GPT / ej-pi-aj

 

③ Słownik wymowy (niezbędny przy częstym używaniu nazw)

Jeśli nazwa własna powtarza się w wielu nagraniach, użyj "Pronunciation Dictionary". Wystarczy zarejestrować słowo raz, a AI zapamięta je na zawsze.

🚨 Błąd, który kosztuje kredyty!
W polu Alias wpisz wymowę. Jeśli chcesz, aby coś brzmiało po angielsku, często lepiej wpisać to fonetycznie po angielsku (np. ITSUB → Eat Sub).

※ Uwaga: W słowniku wymowy nie używamy myślników. Wpisujemy tylko czyste słowo (np. Eat Sub).
Myślnik (-) służy tylko do edycji tekstu wewnątrz edytora (patrz punkt 3).

Jak dodać własny słownik, sprawdzisz w naszym przewodniku po korekcie wymowy.

 

Model v3 świetnie radzi sobie z liczbami i symbolami (np. "$22" jako "dwadzieścia dwa dolary"). Jeśli jednak zależy Ci na stałym brzmieniu, użyj słownika.

 


⏸️ 3. Pauzy i oddech: magia interpunkcji i myślników

Interpunkcja to najsilniejsze narzędzie w Twoim prompcie.

 

① Długość pauz w zależności od znaków

Znak

Efekt

Długość pauzy

Przecinek ,

Krótka pauza

Krótka

Kropka .

Koniec zdania

Średnia

Nowa linia (Enter)

Reset oddechu

Długa

Wielokropek …

Zamyślenie

Długa (miękka)

Myślnik -

Bardzo krótka pauza

Bardzo krótka

 

② Myślnik (-) — nasz ulubiony trik

Gdy przecinek jest za długi, a brak znaku powoduje zlanie słów — użyj myślnika.

  • Rozdzielenie wymowy: siedem-dziesiąt → zapobiega zlewaniu.

  • Mikro-pauza: Cóż, więc- naturalne przejście.

  • Napięcie: To było-właśnie- budowanie oczekiwania.

 

📌 Uwaga użytkownicy v3: Nowa linia to miecz obosieczny
Model v3 „resetuje” nieco barwę głosu przy każdym nowym akapicie. Jeśli potrzebujesz długiej, spójnej narracji, ogranicz liczbę nowych linii.

 

③ Precyzyjne pauzy czasowe ⚡

Model

Sposób wstawiania pauzy

Model v3

[pause], [short pause], [long pause]

v2 / Turbo / Flash

<break time="1.5s" />

Studio (Edytor)

Przycisk 'Wstaw pauzę' (najwygodniej!)

🚨 Błąd: Używanie tagu <break> w modelu v3.
Model v3 go nie obsługuje. Używaj tagu [pause] lub interpunkcji (… / —).

 


📋 4. Gotowe szablony promptów

① Narracja wideo (YouTube)

[curious] Czy wiedzieliście o tym?
To, co dzisiaj pokażę-jest naprawdę proste, ale działa.
[excited] Zaczynajmy!

▶ Rekomendowany model: Eleven v3

 

② Dialogi postaci (emocje)

[whispers] Nikt nie może się dowiedzieć…
[nervous] Prawdę mówiąc, byłem tam tamtego dnia.
[sighs] Teraz już za późno na żal.

▶ Rekomendowany model: Eleven v3

 

③ Reklama produktu

[excited] Tylko dziś! Ostatnia szansa na tę cenę.
Dłuższe zastanawianie się-oznacza dłuższą dostawę.
[calm] Wybierz mądrze już teraz.

▶ Rekomendowany model: Eleven v3

 

④ Instruktaż / Audio-przewodnik

Dzień dobry.
Pokażę teraz, jak zainstalować urządzenie krok po kroku.
Najpierw przytrzymaj przycisk zasilania przez trzy sekundy.

▶ Rekomendowany model: Eleven Multilingual v2

 


❓ FAQ

Q. Wpisuję [excited], a AI czyta to jako „eksajted”. Dlaczego?
Używasz modelu v2. Tag musisz wpisać w modelu v3, aby zamienił się w grę aktorską.

Q. Czy muszę pisać po angielsku?
Tak, tagi v3 są trenowane na instrukcjach angielskich, więc [whispers] czy [laughs] zadziałają najstabilniej.

Q. Co jeśli długi tekst traci spójność tonu?
Ogranicz liczbę akapitów (nowych linii) lub przełącz się na model v2, który jest bardziej przewidywalny w długich formach.


🎁 Podsumowanie

  • Tagi emocjonalne ([excited], [laughs]) działają tylko w v3.

  • Wymowa: najpierw zapis fonetyczny, potem myślniki, na koniec słownik.

  • Pauzy: v3 używa [pause], starsze modele tagu <break>, edytor Studio ma dedykowany przycisk.

ElevenLabs to sztuka „treningu” AI. Jeden dobrze skonstruowany prompt dzieli przeciętne czytanie od profesjonalnego dubbingu.
Kopiujcie szablony, testujcie i słuchajcie wyników – Wasze treści zyskają zupełnie nową jakość!

Do usłyszenia w kolejnych wpisach!
Sonetho ⚡