"Dlaczego ten sam skrypt brzmi tak inaczej – wczoraj był idealny, a dziś brzmi dziwnie?"
To częsty dylemat każdego użytkownika ElevenLabs.
W rzeczywistości w 80% przypadków różnica tkwi w tym, jak sformułowałeś swój prompt (tekst wejściowy).
Witajcie w Sonetho ⚡
W ElevenLabs "prompt" to nic skomplikowanego – to po prostu tekst, który wklejasz do generatora mowy.
Kluczem do sukcesu jest zrozumienie, że ten tekst to nie tylko „zwykłe słowa”.
To samo zdanie: „To niesamowite”,
czytane bez instrukcji brzmi płasko,
ale dodanie odpowiedniego znacznika emocji sprawi, że głos zabrzmi jak u kogoś autentycznie zaskoczonego.
Jedna cyfra, kropka czy myślnik potrafią całkowicie zmienić finalny efekt.
Po niemal trzech latach codziennej pracy z modelami ElevenLabs
przygotował dziś kompleksowy przewodnik po tworzeniu skutecznych promptów.
Znajdziecie tu wszystko: tagi audio v3, korektę wymowy, pauzy, a także gotowe szablony do skopiowania. Zapraszamy do lektury!
📌 Na start: Prompt działa inaczej w zależności od modelu
Zanim przejdziemy do szczegółów, jedna ważna uwaga.
Opisywane poniżej "znaczniki audio" (audio tags), takie jak [excited] czy [laughs], działają wyłącznie w modelu Eleven v3.
Co się stanie, jeśli użyjesz ich w modelu Multilingual v2?
Model nie zamieni ich w „grę aktorską”, lecz potraktuje jak zwykły tekst (tagi zostaną po prostu odczytane jako słowa lub zignorowane). 😅
(Nasze testy porównawcze v2 i v3 dla języka polskiego znajdziecie w artykule Eleven v3 vs v2: Porównanie po polsku, gdzie udostępniliśmy 9 ścieżek audio).
Podsumowanie w pigułce:
• Emocje i efekty dźwiękowe → użyj v3
• Długie treści + stała barwa głosu → wybierz v2 (aby uniknąć subtelnych zmian tonu, które mogą wystąpić w v3 między akapitami)
• Korekta wymowy i pauzy (myślniki) → działają w obu modelach
Jeśli chcecie głębiej poznać różnice, koniecznie sprawdźcie artykuł Wskazówki użytkowników: v2 vs v3.
🎭 1. Kompendium tagów audio v3 (emocje i efekty)
Tagi audio to polecenia w nawiasach kwadratowych [ ], w których w języku angielskim instruujesz AI, jak ma brzmieć.
Choć oficjalnie mówimy, że wpływają na „sposób przekazu (delivery)”, z doświadczenia wiemy, że:
umieszczenie tagu przed zdaniem nadaje ton całości,
a wstawienie go w środku zdania dodaje konkretny efekt (śmiech, westchnienie itd.).
Pamiętajcie o dwóch kluczowych zasadach:
Tagi wpisujemy po angielsku. (Polskie [szept] zadziała gorzej niż angielskie [whispers]).
Tagi nie są czytane na głos. To instrukcje dla „aktora”, a nie słowa, które mają wybrzmieć (dotyczy to tylko modelu v3).
① Tagi emocjonalne (najlepiej działają na początku zdania)
Tag | Efekt | Kiedy używać |
|---|---|---|
[excited] | Podekscytowany, entuzjastyczny | Zapowiedzi eventów, nowości |
[sad] | Przygaszony, smutny | Narracja emocjonalna, opowiadania |
[angry] | Zły, podenerwowany | Dialogi postaci, dramatyczne sceny |
[whispers] | Szept | Sekrety, klimat ASMR, napięcie |
[sarcastic] | Sarkastyczny, ironiczny | Humor, charakterystyczne role |
[curious] | Ciekawy, pytający | Narracja w formie pytań |
[nervous] | Zdenerwowany, drżący | Sceny pełne napięcia |
[calm] | Spokojny, opanowany | Medytacje, instruktaże |
Przykład użycia (v3):
[excited] Słuchajcie, w końcu wprowadzamy nasz nowy produkt!
[whispers] Tak między nami, tylko dzisiaj mamy specjalną zniżkę.
👉 Pierwsze zdanie brzmi entuzjastycznie, a drugie natychmiast zmienia barwę na konspiracyjny szept. To prawdziwa moc v3.
② Tagi dźwiękowe/pozawerbalne (wstawiamy wewnątrz zdania)
Te tagi generują autentyczny dźwięk, a nie tylko emocję.
Tag | Dźwięk | Miejsce wstawienia |
|---|---|---|
[laughs] | Śmiech | Środek/koniec zdania |
[chuckles] | Ciche zachichotanie | Środek/koniec zdania |
[sighs] | Westchnienie | Początek/środek |
[gasps] | Zaskoczenie (wciągnięcie powietrza) | Początek |
[clears throat] | Odchrząknięcie | Początek |
[exhales] | Wypuszczenie powietrza | Środek/koniec |
Przykład użycia (v3):
O nie, znów o tym zapomniałem. [sighs] Muszę zacząć od początku.
Wczoraj zrobiłem coś głupiego… [laughs] aż wstyd przyznać.
📌 Wskazówka: Umiar jest kluczem ⚡
Możesz łączyć tagi, ale nie przesadzaj. Zbyt duża ich liczba w jednym zdaniu sprawi, że głos będzie brzmiał nienaturalnie lub tagi zostaną zignorowane. Zasada „jeden tag na zdanie” działa najlepiej.
🔤 2. Korekta wymowy: gdy nazwy własne brzmią źle
Nawet najlepszy prompt nie pomoże, jeśli AI przeczyta "Robert Lewandowski" jako "Rober Lewandowski". 😭
Problemy z wymową to inna kategoria niż emocje, więc rozwiązujemy je inaczej.
Oto trzy metody:
① Zapis fonetyczny (najszybsze rozwiązanie)
Po prostu wpisz słowo tak, jak się je wymawia w języku polskim.
YouTube → Jutub
API → Ej-pi-aj
2026 r. → dwa tysiące dwudziesty szósty rok (jeśli AI gubi się w liczbach)
② Rozdzielenie za pomocą myślników
Jeśli dwa słowa zlewają się w jedno, użyj myślnika, aby wymusić wyraźną artykulację.
siedem-dziesiąt / czat-GPT / ej-pi-aj
③ Słownik wymowy (niezbędny przy częstym używaniu nazw)
Jeśli nazwa własna powtarza się w wielu nagraniach, użyj "Pronunciation Dictionary". Wystarczy zarejestrować słowo raz, a AI zapamięta je na zawsze.
🚨 Błąd, który kosztuje kredyty!
W polu Alias wpisz wymowę. Jeśli chcesz, aby coś brzmiało po angielsku, często lepiej wpisać to fonetycznie po angielsku (np. ITSUB → Eat Sub).
※ Uwaga: W słowniku wymowy nie używamy myślników. Wpisujemy tylko czyste słowo (np. Eat Sub).
Myślnik (-) służy tylko do edycji tekstu wewnątrz edytora (patrz punkt 3).
Jak dodać własny słownik, sprawdzisz w naszym przewodniku po korekcie wymowy.
Model v3 świetnie radzi sobie z liczbami i symbolami (np. "$22" jako "dwadzieścia dwa dolary"). Jeśli jednak zależy Ci na stałym brzmieniu, użyj słownika.
⏸️ 3. Pauzy i oddech: magia interpunkcji i myślników
Interpunkcja to najsilniejsze narzędzie w Twoim prompcie.
① Długość pauz w zależności od znaków
Znak | Efekt | Długość pauzy |
|---|---|---|
Przecinek , | Krótka pauza | Krótka |
Kropka . | Koniec zdania | Średnia |
Nowa linia (Enter) | Reset oddechu | Długa |
Wielokropek … | Zamyślenie | Długa (miękka) |
Myślnik - | Bardzo krótka pauza | Bardzo krótka |
② Myślnik (-) — nasz ulubiony trik
Gdy przecinek jest za długi, a brak znaku powoduje zlanie słów — użyj myślnika.
Rozdzielenie wymowy: siedem-dziesiąt → zapobiega zlewaniu.
Mikro-pauza: Cóż, więc- naturalne przejście.
Napięcie: To było-właśnie- budowanie oczekiwania.
📌 Uwaga użytkownicy v3: Nowa linia to miecz obosieczny
Model v3 „resetuje” nieco barwę głosu przy każdym nowym akapicie. Jeśli potrzebujesz długiej, spójnej narracji, ogranicz liczbę nowych linii.
③ Precyzyjne pauzy czasowe ⚡
Model | Sposób wstawiania pauzy |
|---|---|
Model v3 | [pause], [short pause], [long pause] |
v2 / Turbo / Flash | <break time="1.5s" /> |
Studio (Edytor) | Przycisk 'Wstaw pauzę' (najwygodniej!) |
🚨 Błąd: Używanie tagu <break> w modelu v3.
Model v3 go nie obsługuje. Używaj tagu [pause] lub interpunkcji (… / —).
📋 4. Gotowe szablony promptów
① Narracja wideo (YouTube)
[curious] Czy wiedzieliście o tym?
To, co dzisiaj pokażę-jest naprawdę proste, ale działa.
[excited] Zaczynajmy!
▶ Rekomendowany model: Eleven v3
② Dialogi postaci (emocje)
[whispers] Nikt nie może się dowiedzieć…
[nervous] Prawdę mówiąc, byłem tam tamtego dnia.
[sighs] Teraz już za późno na żal.
▶ Rekomendowany model: Eleven v3
③ Reklama produktu
[excited] Tylko dziś! Ostatnia szansa na tę cenę.
Dłuższe zastanawianie się-oznacza dłuższą dostawę.
[calm] Wybierz mądrze już teraz.
▶ Rekomendowany model: Eleven v3
④ Instruktaż / Audio-przewodnik
Dzień dobry.
Pokażę teraz, jak zainstalować urządzenie krok po kroku.
Najpierw przytrzymaj przycisk zasilania przez trzy sekundy.
▶ Rekomendowany model: Eleven Multilingual v2
❓ FAQ
Q. Wpisuję [excited], a AI czyta to jako „eksajted”. Dlaczego?
Używasz modelu v2. Tag musisz wpisać w modelu v3, aby zamienił się w grę aktorską.
Q. Czy muszę pisać po angielsku?
Tak, tagi v3 są trenowane na instrukcjach angielskich, więc [whispers] czy [laughs] zadziałają najstabilniej.
Q. Co jeśli długi tekst traci spójność tonu?
Ogranicz liczbę akapitów (nowych linii) lub przełącz się na model v2, który jest bardziej przewidywalny w długich formach.
🎁 Podsumowanie
Tagi emocjonalne ([excited], [laughs]) działają tylko w v3.
Wymowa: najpierw zapis fonetyczny, potem myślniki, na koniec słownik.
Pauzy: v3 używa [pause], starsze modele tagu <break>, edytor Studio ma dedykowany przycisk.
ElevenLabs to sztuka „treningu” AI. Jeden dobrze skonstruowany prompt dzieli przeciętne czytanie od profesjonalnego dubbingu.
Kopiujcie szablony, testujcie i słuchajcie wyników – Wasze treści zyskają zupełnie nową jakość!
Do usłyszenia w kolejnych wpisach!
Sonetho ⚡