Awatary ElevenLabs: jedno zdjęcie + scenariusz i masz wideo z "mówiącą postacią AI" ⚡

ElevenLabs, firma od głosu, wprowadził do ElevenCreative funkcję Avatars (awatary). Wgrywasz zdjęcie, tworzysz własną postać AI, piszesz scenariusz i powstaje gotowe wideo, w którym ta postać mówi z dopasowanymi ustami. Głos i lip-sync powstają razem na jednym ekranie, więc atutem wobec HeyGen i Synthesia jest workflow zintegrowany wokół głosu. Przystępnie dla początkujących wyjaśniamy, jak używać tego do Shorts, reklam UGC i wideo edukacyjnych oraz czym różni się to od HeyGen i Synthesia.

"Wgrałem jedno zdjęcie, napisałem tylko scenariusz... i ta osoba naprawdę mówi?"

 

Do tej pory ElevenLabs był firmą, która tworzyła "głos".
A teraz zaczął tworzyć także "twarz".
Mowa o funkcji Avatars (awatary), dzięki której z samego scenariusza powstaje gotowe wideo z mówiącą postacią AI.

Cześć, tu Sonetho. ⚡

 

Od prawie trzech lat używamy ElevenLabs niemal codziennie,
a dziś przynosi świeżutką nowość ogłoszoną oficjalnie w połowie czerwca 2026: Avatars (awatary).

 

Powiedzmy to najpierw w jednym zdaniu.
Teraz także wewnątrz ElevenLabs możesz stworzyć całe wideo z mówiącą postacią.
Wgrywasz zdjęcie, tworzysz postać AI, piszesz scenariusz, wybierasz głos,
i → ta postać mówi, idealnie dopasowując ruch ust do dźwięku.

 

Pewnie kojarzysz HeyGen i Synthesia (usługi do tworzenia mówiących wideo z awatarami AI).
Właśnie na to pole wkroczył ElevenLabs, mistrz w dziedzinie głosu.
Dziś rozłożymy to na czynniki pierwsze, krok po kroku i przystępnie dla początkujących: co to jest, jak tego używać i czym różni się od dotychczasowych usług!

 

👉 Zacznij z awatarami ElevenLabs →

 


🤔 Dlaczego firma od głosu nagle zajęła się "twarzą"?

Zacznijmy od prostego wyjaśnienia pojęć.

 

💡 Słowniczek, który zrozumiesz od razu

  • Avatars (awatary) = "twoja własna postać AI" stworzona ze zdjęcia lub z opisu tekstowego. Raz utworzona, służy wielokrotnie w kolejnych wideo.

  • Talking-head = wideo z "mówiącą twarzą", w którym osoba patrzy w kamerę i mówi, typowe dla YouTube i reklam.

  • Lip-sync = technologia naturalnego dopasowania ruchu ust do głosu.

  • ElevenCreative = przestrzeń ElevenLabs do tworzenia treści. To w jej menu "Image & Video (obraz i wideo)" pojawiły się nowe awatary.

 

Prawdziwą bronią ElevenLabs jest, co tu dużo mówić, "głos".
W dziedzinie TTS (technologii zamieniającej tekst na ludzki głos) i klonowania głosu firma jest na światowym poziomie.

 

Twórcy wideo zmagali się jednak z taką niedogodnością.

  • W ElevenLabs generowali głos,

  • potem wgrywali ten plik audio do innej usługi (np. HeyGen),

  • i tam dopasowywali ruch ust... To przekazywanie plików tam i z powrotem było uciążliwe.

 

Awatary rozwiązują ten etap w całości w jednym miejscu.
Głos, twarz i dopasowanie ust → wszystko naraz wewnątrz ElevenLabs.
Nie chodzi o to, że firma od głosu zaczęła robić twarze, ale o plan, by płynnie połączyć drogę "od głosu do wideo".

 


⚙️ Jak to działa: etap "eksportu audio" zniknął całkowicie

Ogłoszenie tej funkcji ma jedno kluczowe zdanie.
Mianowicie: "Text to Speech został wbudowany bezpośrednio w prompt island (panel promptu)".

 

Brzmi skomplikowanie, ale sens jest prosty.

 

💡 Mówiąc prościej

  • W tym samym miejscu, gdzie wpisujesz scenariusz (prompt island = panel, w którym wpisujesz polecenia), wbudowana jest też funkcja tworzenia głosu.

  • Dlatego głos i wideo z dopasowanymi ustami (lip-sync) powstają "naraz, razem".

  • Nie musisz w ogóle osobno eksportować pliku audio i przenosić go gdzie indziej.

 

I jeszcze jedno.
Atutem jest to, że ElevenLabs sam posiada "część odpowiedzialną za tworzenie głosu".

 

Skoro technologia tworzenia głosu (voice model) i technologia dopasowania ust (lip-sync model) pracują razem pod jednym dachem,
oficjalne ogłoszenie tłumaczy, że synchronizacja (timing ust i dźwięku) jest dokładniejsza niż w metodzie, gdzie audio pochodzi z zewnątrz.
Maleje ta subtelna rozbieżność, gdy usta układają się w "cześć", a dźwięk to już zupełnie co innego.

 

📌 Notatka redakcji: model lip-sync wybieram "ja sam" ⚡
ElevenLabs zebrał w jednym miejscu kilka znakomitych technologii lip-sync
i pozwala samodzielnie wybrać żądany model lip-sync na ekranie generowania (jest też wartość domyślna).
Sedno w tym, że każdy model różni się jakością, maksymalną rozdzielczością i "liczbą kredytów na sekundę". Zebraliśmy to w tabeli z pomiarami tuż poniżej.

 


🎬 Krok po kroku: od zdjęcia do mówiącego wideo

Cały proces jest prostszy, niż się wydaje.
Zgodnie z oficjalnymi wskazówkami wygląda to tak.

 

Krok 1: stwórz awatara (swoją własną postać AI)
W menu Image & Video w ElevenCreative naciśnij "New (utwórz nowy)" w sekcji Avatar.
Potem stwórz postać na jeden z dwóch sposobów.

  • Wgranie zdjęć: wgranie 3-5 zdjęć tej samej osoby pod różnymi kątami daje stabilniejszy efekt.
    (Przy jednym zdjęciu wynik bywa nierówny.)

  • Opis tekstowy: postać można stworzyć też bez zdjęcia, opisując promptem tekstowym "taka a taka osoba".

Dla porządku: awatara można zrobić nie tylko z człowieka, ale też z postaci czy zwierzęcia. (Nie musi to być człowiek)

 

Krok 2: nadaj nazwę i ustaw głos domyślny
Nadaj awatarowi nazwę, w razie potrzeby ustaw głos domyślny (default voice), a następnie zatwierdź postać przez "Create Avatar".
Każdy awatar ma z góry przypisany głos domyślny, ale możesz go zmienić w każdej chwili.

 

Krok 3: stwórz mówiące wideo
Wybierz utworzonego awatara i naciśnij "Create Lip Sync (utwórz lip-sync)".
A potem: ① wybierz styl → ② wybierz głos (głos z biblioteki lub sklonowany przez Ciebie) → ③ wpisz scenariusz → ④ wygeneruj głos przyciskiem "Generate speech" i odsłuchaj podgląd.

 

Krok 4: generowanie
W razie potrzeby dorzuć krótki prompt wizualny nadający nastrój wideo, a potem naciśnij "Generate" i gotowe.
Wideo z dopasowanymi ustami powstaje wraz z głosem.

 

💡 Sprawdź kredyty, zanim klikniesz

  • Wideo z awatarem działa według dotychczasowej struktury kredytów "Image & Video".

  • Koszt zależy od wybranego modelu lip-sync, rozdzielczości wyjściowej i długości wideo.

  • Na szczęście przed naciśnięciem przycisku generowania na ekranie wyświetla się szacowana liczba kredytów. Spójrz i dopiero klikaj!

  • (Obsługiwane są rozdzielczości 480p, 720p i 1080p, ale według niektórych kryteriów na kredyty bardziej niż rozdzielczość czy proporcje obrazu wpływa "długość wideo".)

 

Dlatego przenieśliśmy prosto z ekranu wyboru modeli z czerwca 2026 liczbę kredytów na sekundę dla poszczególnych modeli lip-sync. (Im niższa liczba, tym taniej)

Model lip-sync

Kredyty na sekundę

Cechy (opis oficjalny)

Veed Lipsync

41

Szybki i tani lip-sync wideo

Sync Lipsync 2 Pro

661

Jakość studyjna do treści live-action, animacji i AI

Creatify Aurora

848

Najwyższa jakość z obrazu, prowadzony lip-sync

Sync 3

1,053

Inteligencja wizualna, jakość profesjonalna

HeyGen Avatar 4 (nowość)

1,212

Ekspresyjny ruch, do 1080p

Veed Fabric

1,212

Realistyczny z dowolnego obrazu, do 720p

OmniHuman 1.5

1,267

Realistyczny lip-sync, obsługa twarzy nie-ludzkich

⚠️ Pułapka słowa "na sekundę": koszt rośnie wprost proporcjonalnie do długości

  • To kredyty na sekundę, więc im dłuższe wideo, tym koszt rośnie błyskawicznie.

  • Np.) wideo 30-sekundowe w modelu Sync 3 (1,053/s) → około 31 600 kredytów. Przy 1 minucie to około 63 000 kredytów.

  • W planie Creator (ok. 120 000 kredytów miesięcznie) to mniej więcej 3-4 filmy po 30 sekund. Szczerze mówiąc, nie jest to dużo.

  • Za to tani model jak Veed Lipsync (41/s) kosztuje przy 30 sekundach około 1 230 kredytów, czyli za te same kredyty zrobisz kilkadziesiąt razy więcej.
    To kompromis między jakością a kosztem.

  • Do tego kredyty za stworzenie awatara (obrazu) liczą się osobno. Powyższe kredyty na sekundę dotyczą tylko części "mówiącego wideo (lip-sync)".

※ Kredyty na sekundę to wartości zmierzone na ekranie wyboru modeli w czerwcu 2026. Polityka modeli i cen zmienia się często, dlatego koniecznie sprawdź szacowaną liczbę kredytów na ekranie tuż przed generowaniem.

 

👉 Sam stwórz awatara →

 


🪪 Raz utworzony, używany bez końca: trwała tożsamość i warianty "stylu"

Prawdziwym atutem awatarów jest "ponowne użycie".

 

Raz utworzony awatar ma "trwałą tożsamość (persistent identity)".
Mówiąc prościej, tę raz utworzoną postać możesz pokazywać w wielu wideo wciąż z tą samą twarzą.
Nie ma wpadek, w których twarz człowieka subtelnie się zmienia z filmu na film.

 

Do tego dochodzi funkcja "Styles (style)".
Pozwala tworzyć warianty tej samej postaci, w których kluczowa tożsamość pozostaje bez zmian, a zmieniasz:

  • kąt kamery (przód / bok itd.)

  • strój (garnitur / casual itd.)

  • tło i oświetlenie

 

Na przykład tworzysz jednego "prezentera naszej marki",
a potem renderujesz wersję w garniturze na tle biura, casualową wersję plenerową i wersję w zbliżeniu, wszystkie jako ta sama osoba.
Ten awatar i jego style zachowują się bez końca, niezależnie od liczby generowań, i służą w wielu projektach.

 

📌 Dlaczego to ważne ⚡
Czy to kanał na YouTube, czy reklama, widzowie zapamiętają markę tylko wtedy, gdy konsekwentnie pojawia się "ta sama twarz".
Jeśli za każdym razem nagrywasz od nowa albo używasz innej postaci AI, spójność się rozpada.
Awatary dają Ci aktora, którego "tworzysz raz i wykorzystujesz przez całe życie".

 


🔁 "Masowa produkcja" z Flows: reklamy UGC produkowane hurtowo

Od tego miejsca robi się nieco bardziej zaawansowanie, ale dla marketerów i twórców UGC to istny miód.

 

💡 Tylko dwa pojęcia

  • Flows (przepływy) = funkcja automatyzacji, która łączy zadania jedno po drugim jak automatyczny taśmociąg.

  • Reklama UGC = reklama w stylu opinii, która wygląda, "jakby nagrał ją sam użytkownik". Dziś to najlepiej działający format na Instagramie, TikToku i Shorts.

 

Teraz do Flows dodano nowy "węzeł Avatar (blok awatara)".
Wstawiając go, możesz podłączyć generowanie wideo z awatarem do automatycznego pipeline'u.

 

Przenosząc oficjalny przykładowy przepływ jeden do jednego, wygląda to tak.

  • ① wprowadzasz brief produktu (krótki opis produktu)

  • ② AI generuje scenariusz

  • ③ powstaje lektor (głos narracji)

  • ④ powstaje wideo, w którym awatar wypowiada ten scenariusz

 

I to wszystko uruchamiasz hurtowo (batch) według produktu, języka i hooka.
"Hook" oznacza tu wstępną kwestię, która łapie pierwsze 3 sekundy wideo.

 

Na przykład zmieniając sam hook na 5 wariantów ("Bez tego stracisz", "Zobacz tylko przez 3 sekundy" itp.), za jednym razem wyprodukujesz 5 wariantów reklamy.
To idealne do zadania w stylu "który wstęp lepiej działa", testowanego w wielu wersjach w reklamach Shorts i Reels.
Bo nie musisz za każdym razem nagrywać od nowa.

 


⚖️ Czym to się różni od HeyGen i Synthesia? (szczere porównanie)

"Skoro mam już HeyGen i Synthesia, po co ElevenLabs?"
Słuszne pytanie. Wskażę tylko to, co najważniejsze. (Ceny są podane według materiałów oficjalnych i porównawczych i mogą się różnić w zależności od promocji oraz cyklu rozliczeniowego.)

 

Usługa

Atut / sposób rozliczenia

Dobra, gdy

Awatary ElevenLabs

Głos to ich główna specjalność → audio i twarz w jednym miejscu. Rozliczenie kredytowe

Jakość głosu jest priorytetem, głosy wielojęzyczne

Synthesia

Rozliczenie za "minuty", więc łatwo policzyć budżet. Awatary chwalone za realizm

Szkolenia firmowe, wideo wewnętrzne

HeyGen

Rozliczenie kredytowe. Mocny w wielojęzycznym tłumaczeniu istniejących wideo

Marketing, tłumaczenie treści na zagranicę

 

Kluczową różnicę można streścić w jednym zdaniu.

 

ElevenLabs to "integracja zorientowana na głos".
Firma, której głos był od początku na światowym poziomie, dołożyła do tego głosu twarz (lip-sync) i pozwala wyrenderować to na jednym ekranie, za jednym razem.
Atutem jest to, że nie trzeba przenosić audio tam i z powrotem, a synchronizacja głosu z ustami jest dokładniejsza.

 

Krótko o samym wyczuciu cen. (stan na czerwiec 2026)

  • HeyGen: w kredytach. Dla flagowej funkcji awatarów (Avatar IV) to około $1 za minutę (plan Creator).

  • Synthesia: subskrypcja za minuty. W przeliczeniu na płatność roczną około $1,8-2,1 za minutę.

  • Awatary ElevenLabs: w zależności od wybranego modelu lip-sync rozpiętość jest duża, od około $0,45 za minutę (tanio) do $13,8 (premium) (zobacz powyższą tabelę kredytów na sekundę).

 

💰 To co w końcu wyjdzie taniej? Wszystko przeliczyliśmy w części 2
Szczerze: jeśli tworzysz dużo i w wysokiej jakości, dedykowana platforma (HeyGen, Synthesia) może wyjść taniej za minutę,
a jeśli robisz to od czasu do czasu, w małych ilościach, w zintegrowanym workflow, korzystniejszy jest ElevenLabs.
Do końca rozliczyliśmy próg opłacalności, który rozstrzyga "ile minut miesięcznie tworzysz", w tabeli rzeczywistych kosztów za minutę.
[Pojedynek o koszty awatarów] Subskrypcja bezpośrednia vs ElevenLabs: zobacz, co naprawdę jest tańsze →

 

🚨 Szczerze, to wciąż jest niepewne
Maksymalna długość wideo, jaką można wygenerować za jednym razem dla danego modelu oraz kredyty za samo stworzenie awatara (obrazu) zależą od modelu i ustawień, więc nie zostały ujawnione w postaci konkretnych liczb.
(Maksymalna rozdzielczość również różni się w zależności od modelu. Jak w powyższej tabeli, są wymieszane modele do 720p i modele do 1080p.)
Za to dokładny koszt wyświetla się jako szacowana liczba kredytów na ekranie tuż przed generowaniem, więc spójrz na to i klikaj.
Ponadto w momencie premiery API (integracja zewnętrzna) nie jest dostępne, ma pojawić się później.

 


🙋 Komu więc się to przyda?

Naszym zdaniem szczególnie mocno przyda się tym osobom.

 

  • Twórcy Shorts i Reels: prowadzenie kanału ze spójnym "aktorem AI", bez presji pokazywania własnej twarzy.

  • Marketerzy UGC i performance: masowa produkcja wariantów reklam przez zmianę samego hooka, łatwe testy A/B.

  • Twórcy treści edukacyjnych i kursów: serie wykładów z "tym samym wykładowcą", skalowane według przedmiotu i języka.

  • Osoby prowadzące marki i media społecznościowe: regularne tworzenie treści społecznościowych bez nagrywania za każdym razem.

  • Osoby potrzebujące wielojęzycznych wideo objaśniających: produkcja zlokalizowanych wideo w połączeniu z wielojęzycznym głosem ElevenLabs.

 

Z drugiej strony osoby, które chcą tworzyć wideo całkowicie za darmo, mogą czuć niedosyt.
Awatary (generowanie wideo) działają tylko w planach płatnych (w planie darmowym nie da się generować wideo).
Na szczęście są obecnie dostępne we wszystkich płatnych planach ElevenCreative.

 


❓ Najczęściej zadawane pytania

 

Q. Czy mając tylko jedno zdjęcie, mogę od razu stworzyć awatara?
Technicznie da się go zrobić nawet z jednego zdjęcia, a można też stworzyć go bez zdjęcia, opisując postać tekstem (promptem).
Oficjalne wskazówki zalecają jednak 3-5 zdjęć tej samej osoby pod różnymi kątami.
Bo przy jednym zdjęciu twarz może nie być spójna z filmu na film. Jeśli zależy Ci na stabilnym efekcie, wgraj kilka zdjęć.

 

Q. Czy mówiące wideo z awatarem da się stworzyć także w planie darmowym?
Nie. Generowanie wideo z awatarem jest możliwe tylko w planach płatnych (w planie darmowym generowanie wideo jest ograniczone).
Działa jednak we wszystkich płatnych planach ElevenCreative, a koszt potrącany jest z dotychczasowych kredytów "Image & Video".
Zależy od wybranego modelu, rozdzielczości i długości wideo, a przed generowaniem na ekranie wyświetla się szacowana liczba kredytów, więc możesz zdecydować po jej zobaczeniu.

 

Q. Czy jest powód, by zamiast HeyGen i Synthesia używać awatarów ElevenLabs?
Największą różnicą jest "głos".
Główną specjalnością ElevenLabs są od początku TTS i klonowanie głosu, więc jakość głosu i głosy wielojęzyczne są mocne.
Do tego dołożono twarz (lip-sync), a kluczowym atutem jest to, że wideo powstaje w jednym miejscu, za jednym razem, bez przenoszenia audio do innej usługi.
To kuszące, jeśli jakość głosu jest priorytetem albo jeśli często tworzysz wideo wielojęzyczne.
(I odwrotnie: jeśli ważne jest zarządzanie budżetem w minutach, dobrym wyborem jest Synthesia, a jeśli głównym celem jest wielojęzyczne tłumaczenie istniejących wideo, dobry będzie HeyGen.)

 

Q. Czy mogę używać tej samej postaci bez końca, tak by twarz nie zmieniała się z filmu na film?
Tak, na tym polega sedno awatarów.
Raz utworzony awatar zachowuje trwałą tożsamość, więc niezależnie od liczby generowań pojawia się w wielu wideo z tą samą twarzą.
Dzięki funkcji "Styles (style)" możesz też tworzyć warianty ze zmienionym jedynie kątem, strojem czy tłem, więc tożsamość pozostaje, a inscenizacja może być różnorodna.

 


🎁 Na koniec

Podsumujmy jeszcze raz to, co najważniejsze.

 

  • Avatars = nowa funkcja, w której postać AI stworzona ze zdjęcia lub tekstu powstaje jako wideo mówiące z dopasowanymi ustami.

  • Głos i dopasowanie ust na jednym ekranie, za jednym razem → bez mozołu przenoszenia audio, dokładniejsza synchronizacja.

  • Raz utworzony awatar używasz wielokrotnie, a przez Styles zmieniasz kąt, strój i tło.

  • Dzięki węzłowi Avatar w Flows produkujesz hurtowo reklamy UGC i Shorts według hooka i języka.

  • Część wartości, jak ceny, długość czy model wybierany automatycznie, jest nieujawniona → sprawdzaj kredyty wyświetlane przed generowaniem.

 

"Mistrz głosu" trzyma teraz w ręku także "twarz".
Otworzyła się era, w której droga od głosu do wideo łączy się w jeden ciąg.

 

Jeśli korzystasz z planu płatnego, jeszcze dziś wgraj kilka zdjęć
i stwórz swojego własnego aktora AI.
To, jak jedna linijka scenariusza zmienia się w "mówiące wideo", odczujesz w minutę, gdy raz spróbujesz!

 

👉 Zacznij z awatarami ElevenLabs →

 

W kolejnym wpisie wrócę z następną porcją przydatnych wskazówek.
To było Sonetho. ⚡