[Test Dubbing v2] Demon Slayer: Porównanie v1 vs v2 – Niesamowita aktualizacja!

⚡ Podsumowanie w 3 punktach
• Koniec z ręczną pracą w studiu dubbingowym — ton, intonacja i ekspresja są teraz zautomatyzowane. To jakość, która wykracza daleko poza granice wersji v1.
• Sprawdziliśmy, jak działa automatyczny polski dubbing na przykładzie kultowego anime Demon Slayer.
• Era, w której twórcy mogą podbijać świat własnym głosem, właśnie nadeszła.

Cześć! Tu Sonetho. ⚡

Zapowiadając niedawno premierę Dubbing v2, obiecaliśmy, że przetestujemy go w boju.
Słowa dotrzymaliśmy. Wzięliśmy na warsztat scenę z Demon Slayer i sprawdziliśmy, jak poradzi sobie z polskim dubbingiem.
Werdykt? Wyniki są oszałamiające. Te brakujące 2% jakości, które wcześniej oddzielały nas od perfekcji, zostały nie tylko nadrobione, ale wręcz przewyższone.

▲ ElevenLabs Dubbing v2 · Automatyczny polski dubbing (oryginał japoński → polski) · Speaker similarity 7

Dlaczego v1 sprawiał tyle trudności?

Jak wspominaliśmy w naszym artykule o klonowaniu głosów w dubbingu anime, praca z v1 wymagała ogromnego wysiłku:

Automatyczny dubbing często nie trafiał w synchronizację warg, a tłumaczenia wymagały ciągłej korekty.
Musieliśmy ręcznie wycinać klipy z głosem postaci w studiu, aby przygotować oddzielne modele głosowe dla każdej z nich.
Efekt? Ton głosu różnił się między scenami – ta sama postać brzmiała jak zupełnie inna osoba.
Ograniczone dane uczące sprawiały, że wyjście było nieprzewidywalne.
Dążenie do idealnego efektu oznaczało niekończące się poprawki, a mimo to rezultatom zawsze czegoś brakowało.

Krótko mówiąc, praca z AI bardziej przypominała „ręczny montaż z pomocą narzędzia” niż prawdziwą automatyzację.

v2… i żadne studio nie jest już potrzebne

Najnowsza wersja v2 szczerze nas zaskoczyła.

Bez żadnej ręcznej ingerencji w studiu, już przy pierwszej próbie:

System idealnie uchwycił ton i intonację oryginalnego mówcy.
Emocje w grze aktorskiej zostały oddane zaskakująco dobrze.
Cały ten żmudny proces wycinania klipów i tworzenia osobnych modeli głosowych przeszedł do historii.

W porównaniu z v1, postęp jest gigantyczny.
Posłuchajcie powyższego materiału – owa „sztuczność”, która kiedyś zdradzała AI, niemal całkowicie zniknęła.

Jeden kluczowy parametr — Speaker similarity

W menu 'Advanced' znajdziecie suwak 'Speaker similarity'.
Decyduje on o tym, jak bardzo głos ma przypominać "oryginał", a na ile brzmieć "naturalnie w języku docelowym".

W naszym przykładzie z Demon Slayer ustawiliśmy wartość na 7 (w skali 0–10).

▲ Ustawienie 7 — naturalność połączona z oryginalną manierą mówcy

Możecie dowolnie manipulować suwakiem. Sprawdziliśmy skrajne wartości: 0 oraz 10. Zobaczcie różnicę:

Wartość	Efekt
0 (Naturalność)	Największa ekspresja, brzmi jak profesjonalny lektor. Nieco mniej podobny do oryginału.
7 (Nasza rekomendacja)	Złoty środek: naturalny język + zachowanie oryginalnej intonacji.
10 (Oryginał)	Najwierniejszy głos, ale gra aktorska może stać się bardziej sztywna i płaska.

🔊 Speaker similarity 0 — Maksymalna naturalność

▲ Ustawienie 0 — najbardziej naturalne brzmienie w języku polskim

Co ciekawe, 0 okazało się zaskakująco dobre.
Zakres emocjonalny był szerszy, a całość brzmiała jak występ zawodowego aktora głosowego. Mimo że wartość ta oddala się od „podobieństwa” do oryginału, jakość samej interpretacji polskiej wersji była najwyższa.

🔊 Speaker similarity 10 — Wierna kopia

▲ Ustawienie 10 — maksymalna wierność intonacji oryginału

Z kolei przy 10 gra aktorska stała się dość sztywna. Próba wiernego naśladowania japońskiej intonacji sprawiła, że po polsku brzmiało to nieco nienaturalnie.

🎬 0 vs 10 — Porównanie

▲ Porównanie tej samej sceny przy ustawieniach 0 i 10.

Różnica jest wyraźna, prawda?
Podsumowując: niższe wartości (bliżej 0) dają bardziej ekspresyjną i naturalną grę aktorską, wyższe (bliżej 10) skupiają się na naśladowaniu oryginalnej barwy i rytmu mówcy.
Jeśli emocje są najważniejsze, wybierzcie niższe wartości. Do zachowania unikalnej barwy głosu – wyższe. Najlepiej eksperymentować w zakresie 4–7.

Jedna uwaga — nazewnictwo własne

Automatyczne tłumaczenie jest bardzo dobre, ale zawsze weryfikujcie nazwy własne.

Przykład: w Demon Slayer potwory nazywane są „demonami”.
Automatyczny tłumacz czasem może użyć innego terminu, np. „upiór”, co dla fanów serii będzie od razu wyczuwalnym zgrzytem. 😅

To miejsce, w którym ludzka redakcja wciąż jest niezastąpiona.

💡 Warto dodać, że wersja v2 to obecnie etap Alpha, więc funkcje studia dubbingowego są ograniczone. Po pełnej premierze będzie można ręcznie edytować tłumaczenia, co jeszcze bardziej ułatwi poprawianie nazw własnych!

Co to oznacza dla rynku?

Możliwość uzyskania takiej jakości za pomocą kilku kliknięć to prawdziwa rewolucja.

Tradycyjne studia dubbingowe czekają wielkie zmiany. Stosunek ceny i czasu realizacji przy rozwiązaniach AI jest miażdżący dla starych metod.
Dla twórców internetowych to fantastyczna wiadomość.
Teraz możecie docierać na rynki zagraniczne zachowując własny głos – bez konieczności zatrudniania zewnętrznych lektorów.

Jeśli myślicie poważnie o globalnym kanale, v2 przestało być ciekawostką, a stało się standardem, którego brak zostawia Was w tyle.

Czas na Wasze testy

Aktualnie użytkownicy planów Creator i wyższych otrzymują 30 minut dubbingu gratis (Starter: 15 min, Free: 1 min). To idealny czas, by przetestować v2 na własnym materiale.

🎬 Wypróbuj Dubbing v2 za darmo

※ Powyższy link to oficjalny link partnerski Sonetho (bez dodatkowych kosztów dla Ciebie).

📚 Więcej artykułów

Premiera ElevenLabs Dubbing v2! — 90+ języków, wierna gra aktorska

Ogłoszenia · Oficjalny przegląd v2

Sekrety idealnego dubbingu anime: 3 sposoby klonowania (Clip vs Track vs IVC)

Porady ElevenLabs · Porównanie metod klonowania

Kompletny przewodnik po ElevenLabs Dubbing (v1)

Porady ElevenLabs · Workflow v1

🚀 Zakończenie

Wersja v2 sprawiła, że obawy o „sztuczność” AI stały się nieaktualne. Choć praca redakcyjna wciąż jest ważna, startujemy z zupełnie innego pułapu.
Wasze kanały mogą teraz przekraczać granice – zachowując Wasz unikalny głos!

Do zobaczenia przy kolejnych projektach!
Sonetho ⚡