
"W końcu wykupiłem subskrypcję i sklonowałem swój głos...
Dlaczego brzmi to tak sztucznie i niechlujnie?"
Witajcie. Tu Sonetho. ⚡
Ostatnio coraz więcej osób, zainspirowanych naszymi wpisami, decyduje się na stworzenie własnego modelu Professional Voice Cloning (PVC). Często jednak otrzymujemy pytania od twórców, którzy nie są zadowoleni z finalnego brzmienia.
Zapewniam Was – to nie wina Waszego głosu.
To wina danych treningowych (scenariusza).
1. AI uczy się dokładnie tego, co mu dostarczysz
Wielu twórców, chcąc wytrenować model, sięga po pierwszą lepszą książkę lub artykuł z sieci. Oczywiście nie jest to błąd, ale ma swoje istotne wady.
- Brak liczb i jednostek: Jak AI ma poprawnie odczytać "120 mmHg"? Jeśli model nie został z tym odpowiednio „oswojony”, przy każdej wartości liczbowej będzie się zacinać.
- Skrótowce: Czy "ISO 9001" to „i-so”, czy każda litera z osobna? AI tego nie odgadnie, jeśli nie dostarczysz mu precyzyjnych danych.
- Niewystarczająca różnorodność danych: Choć do PVC wystarczy 30 minut nagrania, im bogatszy i bardziej zróżnicowany materiał dostarczysz, tym wyższa będzie jakość końcowa.
- Niespójność tonu: Jeśli trenujesz model wyłącznie na nudnych tekstach informacyjnych, a potem oczekujesz, że odczyta emocjonalny fragment – AI wciąż będzie brzmieć jak prezenter wiadomości (a to przepis na porażkę).
[Autorski zestaw treningowy od Sonetho]

Przygotowaliśmy scenariusze idealne na 1-2 godziny nagrań
"Jakość danych wejściowych (Input) determinuje jakość głosu (Output)."
To żelazna zasada w świecie generatywnego AI.
2. Scenariusz szkoleniowy stworzony przez Sonetho
Dlatego przygotowaliśmy coś specjalnego. Nie kopiowaliśmy przypadkowych tekstów. Przetestowaliśmy dziesiątki modeli i wyłapaliśmy wszystkie przypadki brzegowe (edge cases), z którymi AI ma największe problemy – w tym polską fonetykę czy trudne nazwy własne.
📜 Cechy naszego sekretnego scenariusza
- Przewodnik po wymowie: Obok trudnych zapisów dodaliśmy instrukcje czytania.
Przykład: 120 mmHg (sto dwadzieścia milimetrów słupa rtęci) - Różnorodność gatunków: Zawiera teksty emocjonalne, publicystyczne oraz techniczne, aby model nauczył się pełnej gamy intonacji.
- Obsługa symboli: Uczymy AI naturalnej interpretacji znaków takich jak @ (małpa), # (hashtag), % (procenty).
Jeśli nagrasz od 30 minut do 3 godzin materiału, korzystając z tego przygotowanego przez nas scenariusza, Twój model AI stanie się prawdziwym High Quality PVC, który bezbłędnie poradzi sobie z każdym wyzwaniem.
3. Jak zdobyć i korzystać ze scenariusza?
Udostępniamy te materiały zupełnie za darmo dla naszych czytelników. Całość jest dość obszerna, dlatego przygotowaliśmy ją w osobnym, dedykowanym wpisie.
Kliknij poniższy przycisk, aby zapoznać się ze scenariuszem i rozpocząć nagrywanie!
Pamiętajcie, że w planie Starter funkcja Professional Voice Cloning (PVC) jest niedostępna!
Aby stworzyć i korzystać z własnego modelu PVC, wybierz plan Creator (22 USD miesięcznie) lub wyższy.
Dziękujemy.
Sonetho ⚡