ElevenLabs Avatars: Ein Foto + ein Skript und schon hast du ein Video einer 'sprechenden KI-Person' ⚡

Q: Kann ich auch im kostenlosen Plan sprechende Avatar-Videos erstellen?

Nein. Die Videogenerierung von Avatars ist nur in kostenpflichtigen Plänen möglich (im kostenlosen Plan ist die Videogenerierung eingeschränkt). Sie lässt sich aber in allen kostenpflichtigen Plänen von ElevenCreative nutzen, und die Kosten werden von den bestehenden 'Image & Video'-Credits abgezogen. Sie hängen von gewähltem Modell, Auflösung und Videolänge ab, wobei die voraussichtlichen Credits vor dem Generieren auf dem Bildschirm angezeigt werden , sodass du auf dieser Basis entscheiden kannst.

Q: Gibt es einen Grund, ElevenLabs Avatars statt HeyGen oder Synthesia zu nutzen?

Der größte Unterschied ist die 'Stimme' . Da TTS und Voice Cloning das ursprüngliche Kerngeschäft von ElevenLabs sind, sind Stimmqualität und mehrsprachige Stimmen stark. Daran wird ein Gesicht (Lip-Sync) geheftet, sodass du das Video an einem Ort in einem Zug erstellst, ohne das Audio in einen anderen Dienst zu schieben . Das ist die zentrale Stärke. Wenn die Stimmqualität an erster Stelle steht oder du häufig mehrsprachige Videos machst, ist es reizvoll. (Steht umgekehrt die Budgetkontrolle pro Minute im Vordergrund, ist Synthesia eine gute Wahl, geht es vor allem um die mehrsprachige Übersetzung bestehender Videos, auch HeyGen.)

"Ein Foto hochgeladen, ein Skript getippt und plötzlich spricht diese Person wirklich?"

Bisher war ElevenLabs die Firma, die 'Stimmen' erschafft.
Jetzt fangen sie an, sogar das 'Gesicht' zu erschaffen.
Es geht um Avatars: Du gibst nur ein Skript ein und bekommst auf einen Schlag ein Video einer sprechenden KI-Person.

Hallo, hier ist Sonetho. ⚡

Wir trainieren ElevenLabs seit fast drei Jahren jeden Tag.
Heute bringen wir euch eine brandneue Funktion mit, die Mitte Juni 2026 offiziell vorgestellt wurde: Avatars.

In einem Satz vorab.
Ab sofort kannst du auch direkt in ElevenLabs ein komplettes 'Video einer sprechenden Person' erstellen.
Du lädst ein Foto hoch und erstellst eine KI-Figur, schreibst ein Skript und wählst eine Stimme
→ und schon spricht diese Figur, wobei sogar die Lippenbewegungen perfekt passen.

Stell dir am besten HeyGen oder Synthesia (Dienste für Videos mit sprechenden KI-Avataren) vor, von denen viele schon einmal gehört haben.
Genau in dieses Feld steigt jetzt ElevenLabs ein, der unangefochtene Champion bei Stimmen.
Heute schauen wir uns von Grund auf an, was das ist, wie man es nutzt und worin der Unterschied zu den bestehenden Diensten liegt. Alles anfängerfreundlich erklärt!

👉 Jetzt mit ElevenLabs Avatars starten →

🤔 Warum macht eine Stimmen-Firma plötzlich 'Gesichter'?

Klären wir zuerst die Begriffe in aller Einfachheit.

💡 Begriffsbox zum sofortigen Verstehen

Avatars = deine eigene 'KI-Person', erstellt aus einem Foto oder aus Text. Einmal erstellt, kannst du sie für viele Videos immer wieder verwenden.
Talking-Head = das bei YouTube und in der Werbung übliche Video eines 'sprechenden Gesichts', das in die Kamera spricht.
Lip-Sync = die Technik, die die Lippenbewegungen natürlich an die Stimme anpasst.
ElevenCreative = der Arbeitsbereich von ElevenLabs für die Content-Produktion. Im dortigen Menü 'Image & Video (Bild & Video)' sind die neuen Avatars gelandet.

Die wahre Stärke von ElevenLabs ist und bleibt die 'Stimme'.
Bei TTS (der Technik, die Text in eine menschliche Stimme verwandelt) und Voice Cloning (dem Klonen von Stimmen) gehört die Firma zur Weltspitze.

Wer aber Videos produziert, kannte bisher folgenden Frust.

In ElevenLabs die Stimme erstellen,
diese Audiodatei dann erneut in einen anderen Dienst (z. B. HeyGen) hochladen,
und dort die Lippenbewegungen anpassen. Dieser Handoff (das Hin- und Herschieben von Dateien) war lästig.

Avatars löst diesen Schritt komplett an einem Ort.
Stimme, Gesicht und Lippensynchronisation → alles in einem Rutsch innerhalb von ElevenLabs.
Es geht nicht darum, dass eine Stimmen-Firma jetzt Gesichter baut, sondern um die Idee, 'von der Stimme bis zum fertigen Video' alles nahtlos zu verbinden.

⚙️ So funktioniert es: Der Schritt 'Audio exportieren' fällt komplett weg

Es gibt einen zentralen Satz aus der offiziellen Ankündigung.
Nämlich, dass "Text to Speech direkt in die prompt island (das Prompt-Fenster) integriert ist".

Klingt kompliziert, ist aber ganz einfach gemeint.

💡 Einfach gesagt

Genau dort, wo du dein Skript eingibst (prompt island = das Eingabefeld für deine Anweisungen), ist die Funktion zur Stimmerstellung gleich mit eingebaut.
Dadurch werden die Stimme (Audio) und das lippensynchrone Video gleichzeitig 'in einem Zug' erzeugt.
Du musst die Audiodatei gar nicht mehr separat exportieren und woanders einfügen.

Und noch etwas.
Es spielt ElevenLabs in die Karten, dass die Firma den 'Teil zur Stimmerstellung' selbst besitzt.

Weil die Technik zur Stimmerstellung (voice model) und die Technik zur Lippensynchronisation (lip-sync model) im selben Haus zusammenlaufen,
passt laut offizieller Ankündigung der Sync (das Timing zwischen Lippen und Ton) genauer als bei Verfahren, die das Audio von außen holen und erst dann synchronisieren.
Die feine Verschiebung, bei der die Lippen "Hallo" formen, der Ton aber "Tschüss" sagt, wird also kleiner.

📌 Redaktionsnotiz: Das Lip-Sync-Modell wähle 'ich' selbst ⚡
ElevenLabs hat mehrere exzellente Lip-Sync-Technologien an einem Ort gebündelt,
sodass du im Erstellungsfenster dein gewünschtes Lip-Sync-Modell selbst auswählen kannst (ein Standardwert ist ebenfalls verfügbar).
Wichtig ist: Qualität, maximale Auflösung und 'Credits pro Sekunde' unterscheiden sich je nach Modell. Gleich unten findest du dazu unsere Messtabelle.

🎬 Schritt für Schritt: Vom Foto bis zum sprechenden Video

Der tatsächliche Ablauf ist einfacher, als man denkt.
Nach der offiziellen Anleitung sieht das so aus.

Schritt 1: Avatar (deine eigene KI-Person) erstellen
Klicke im Menü Image & Video von ElevenCreative im Avatar-Bereich auf 'New (Neu erstellen)'.
Danach erstellst du die Figur auf eine von zwei Arten.

Foto hochladen: Wenn du 3 bis 5 Fotos derselben Person aus verschiedenen Winkeln hochlädst, wird das Ergebnis stabil.
(Mit nur einem einzigen Foto kann das Ergebnis schwanken.)
Per Text beschreiben: Auch ganz ohne Foto kannst du die Figur per Text-Prompt erstellen, indem du beschreibst "so eine Person".

Übrigens kannst du als Avatar nicht nur Menschen, sondern auch Figuren oder Tiere erstellen. (Muss kein Mensch sein.)

Schritt 2: Namen vergeben und Standardstimme festlegen
Gib dem Avatar einen Namen, lege bei Bedarf eine Standardstimme (default voice) fest und bestätige die Figur dann mit 'Create Avatar'.
Jedem Avatar ist vorab eine Standardstimme zugeordnet, du kannst sie aber jederzeit ändern.

Schritt 3: Sprechendes Video erstellen
Wähle den erstellten Avatar aus und klicke auf 'Create Lip Sync (Lippensynchronisation erstellen)'.
Dann ① Stil auswählen → ② Stimme auswählen (eine Stimme aus der Bibliothek oder eine von dir geklonte Stimme) → ③ Skript eingeben → ④ mit 'Generate speech' die Stimme erzeugen und anhören.

Schritt 4: Generieren
Bei Bedarf fügst du noch einen visuellen Prompt hinzu, der die Stimmung des Videos setzt, und klickst auf 'Generate'. Fertig.
Das lippensynchrone Video ist samt Stimme fertiggestellt.

💡 Credits vorher anschauen, dann klicken

Avatar-Videos folgen der bestehenden Credit-Struktur von 'Image & Video'.
Die Kosten hängen vom gewählten Lip-Sync-Modell, der Ausgabeauflösung und der Videolänge ab.
Praktischerweise werden die voraussichtlichen Credits auf dem Bildschirm angezeigt, bevor du auf Generieren klickst. Erst anschauen, dann klicken!
(Unterstützt werden 480p, 720p und 1080p, wobei nach manchen Maßstäben die 'Videolänge' die Credits stärker beeinflusst als Auflösung oder Seitenverhältnis.)

Deshalb haben wir die Credits pro Sekunde je Lip-Sync-Modell direkt aus dem echten Modellauswahl-Bildschirm vom Juni 2026 übernommen. (Je niedriger die Zahl, desto günstiger.)

Lip-Sync-Modell	Credits pro Sekunde	Eigenschaften (offizielle Beschreibung)
Veed Lipsync	41	Schnelle und günstige Video-Lippensynchronisation
Sync Lipsync 2 Pro	661	Studioqualität für reale, animierte und KI-Inhalte
Creatify Aurora	848	Höchste Qualität aus Bildern, geführte Lippensynchronisation
Sync 3	1,053	Visuelle Intelligenz, professionelle Qualität
HeyGen Avatar 4 (neu)	1,212	Ausdrucksstarke Bewegungen, bis zu 1080p
Veed Fabric	1,212	Realistisch aus jedem Bild, bis zu 720p
OmniHuman 1.5	1,267	Realistische Lippensynchronisation, unterstützt nicht-menschliche Gesichter

⚠️ Die Falle bei 'pro Sekunde': Es steigt direkt mit der Länge

Weil es Credits pro Sekunde sind, steigen die Kosten kräftig, je länger das Video ist.
Beispiel) Ein 30-Sekunden-Video mit Sync 3 (1,053/Sek.) → rund 31.600 Credits. Bei 1 Minute sind es rund 63.000 Credits.
Im Creator-Plan (rund 120.000 Credits/Monat) reicht das für etwa 3 bis 4 Videos à 30 Sekunden. Ehrlich gesagt nicht gerade üppig.
Mit einem günstigen Modell wie Veed Lipsync (41/Sek.) kostet eine 30-Sekunden-Aufnahme dagegen rund 1.230 Credits, du bekommst also für dieselben Credits ein Vielfaches mehr heraus.
Es ist ein Trade-off zwischen Qualität und Kosten.
Hinzu kommt: Die Credits für die Avatar-Erstellung (das Bild) sind separat. Die obigen Credits pro Sekunde betreffen nur den Teil 'sprechendes Video (Lip-Sync)'.

※ Die Credits pro Sekunde sind Messwerte aus dem Modellauswahl-Bildschirm vom Juni 2026. Modell- und Preisrichtlinien ändern sich ständig, prüfe deshalb unbedingt die voraussichtlichen Credits auf dem Bildschirm direkt vor dem Generieren.

👉 Selbst einen Avatar erstellen →

🪪 Einmal erstellt, immer wieder genutzt: dauerhafte Identität & 'Styles'-Varianten

Die wahre Stärke von Avatars liegt in der 'Wiederverwendung'.

Ein einmal erstellter Avatar besitzt eine 'dauerhafte Identität (persistent identity)'.
Einfach gesagt: Du kannst diese einmal erstellte Figur in vielen Videos immer mit demselben Gesicht auftreten lassen.
Es passiert nicht mehr, dass sich das Gesicht der Person von Video zu Video leicht verändert.

Dazu kommt die Funktion 'Styles'.
Du kannst Varianten erstellen, die die Kernidentität der Person beibehalten, dabei aber Folgendes verändern.

Kamerawinkel (frontal / seitlich usw.)
Kleidung (Anzug / Casual usw.)
Hintergrund und Beleuchtung

Du kannst zum Beispiel einen 'Markenbotschafter' für deine Marke erstellen,
und ihn dann als dieselbe Person in einer Anzug-Version mit Büro-Hintergrund, einer Casual-Version im Freien und einer Nahaufnahme-Version verwenden.
Dieser Avatar und die Styles bleiben unabhängig von der Anzahl der Generierungen dauerhaft erhalten und lassen sich in vielen Projekten wiederverwenden.

📌 Warum das so wichtig ist ⚡
Ob YouTube-Kanal oder Werbung: Nur wenn beständig 'dasselbe Gesicht' auftaucht, merkt sich das Publikum die Marke.
Wer jedes Mal neu dreht oder jedes Mal eine andere KI-Figur nutzt, zerstört die Konsistenz.
Avatars verschafft dir einen Darsteller, den du 'einmal erstellst und ein Leben lang einsetzt'.

🔁 'Massenproduktion' mit Flows: UGC-Werbung am Fließband

Ab hier wird es etwas fortgeschrittener, aber für Marketer und UGC-Creator ist es Gold wert.

💡 Nur zwei Begriffe

Flows = eine Automatisierungsfunktion, die Arbeitsschritte wie ein automatisches Fließband hintereinander ausführt.
UGC-Werbung = Werbung im Testimonial-Stil, die wirkt, als hätte 'der Nutzer sie selbst gefilmt'. Das aktuell wirkungsvollste Format auf Instagram, TikTok und in Shorts.

Neu hinzugekommen ist in Flows nun ein 'Avatar-Node (Avatar-Block)'.
Baust du ihn ein, kannst du die Avatar-Videogenerierung in eine automatische Pipeline einbinden.

Übernimmt man den offiziellen Beispielablauf direkt, sieht er so aus.

① Produkt-Brief (eine kurze Produktbeschreibung) eingeben
② Die KI erzeugt das Skript
③ Das Voiceover (die Erzählerstimme) wird erzeugt
④ Das Video, in dem der Avatar dieses Skript spricht, wird erzeugt

Und das führst du nach Produkt, Sprache und Hook auf einen Schlag (batch) aus.
Ein 'Hook' meint dabei den Einstiegssatz, der die ersten 3 Sekunden des Videos packt.

Du kannst zum Beispiel nur den Hook fünfmal variieren (etwa "Das musst du wissen, sonst zahlst du drauf" oder "Schau nur 3 Sekunden") und so auf einen Schlag fünf Werbevarianten produzieren.
Perfekt für Arbeiten, bei denen man wie bei Shorts- und Reels-Werbung mehrere Versionen durchspielt, um zu sehen "welcher Einstieg am besten zieht".
Schließlich muss man nicht jedes Mal neu drehen.

⚖️ Was ist anders als bei HeyGen und Synthesia? (ehrlicher Vergleich)

"Es gibt doch schon HeyGen und Synthesia, warum also ElevenLabs?"
Eine berechtigte Frage. Wir bringen es auf den Punkt. (Die Preise basieren auf offiziellen und vergleichenden Angaben und können je nach Aktion und Abrechnungszeitraum variieren.)

Dienst	Stärke / Abrechnung	Ideal, wenn
ElevenLabs Avatars	Stimme ist Kerngeschäft → Stimme + Gesicht an einem Ort. Credit-basiert	Stimmqualität an erster Stelle steht, mehrsprachige Stimmen
Synthesia	Abrechnung pro 'Minute', daher leicht zu budgetieren. Avatare gelten als sehr realistisch	Unternehmensschulungen und interne Videos
HeyGen	Credit-basiert. Stark bei der mehrsprachigen Übersetzung bestehender Videos	Marketing und Übersetzung internationaler Inhalte

Den entscheidenden Unterschied in einem Satz zusammengefasst.

ElevenLabs setzt auf 'Voice-First-Integration'.
Eine Firma mit ursprünglich erstklassigen Stimmen heftet an diese Stimme ein Gesicht (Lip-Sync) und lässt dich alles auf einem Bildschirm in einem Zug erzeugen.
Du musst kein Audio hin- und herschieben, und der Sync zwischen Stimme und Lippen ist präziser. Das ist die Stärke.

Ein kurzes Gefühl für die Preise. (Stand Juni 2026)

HeyGen: pro Credit. Bei der zentralen Avatar-Funktion (Avatar IV) rund $1 pro Minute (Creator-Plan).
Synthesia: Abo pro Minute. Auf das Jahresabo umgerechnet rund $1,8 bis $2,1 pro Minute.
ElevenLabs Avatars: je nach gewähltem Lip-Sync-Modell von rund $0,45 (günstig) bis $13,8 (Premium) pro Minute, die Spanne ist also groß (siehe Tabelle mit Credits pro Sekunde oben).

💰 Was ist am Ende also günstiger? In Teil 2 haben wir es bis zum Schluss durchgerechnet
Ehrlich gesagt: Wenn du viel in hoher Qualität produzierst, können die spezialisierten Plattformen (HeyGen, Synthesia) pro Minute günstiger sein,
bei gelegentlicher, geringer Nutzung oder einem integrierten Workflow ist ElevenLabs im Vorteil.
Wir haben den Break-even, der sich an "wie viele Minuten pro Monat" entscheidet, mit einer Tabelle der echten Kosten pro Minute bis zum Schluss durchgerechnet.
→ [Avatar-Kostenduell] Direktes Abo vs. ElevenLabs: Wer ist wirklich günstiger? →

🚨 Ehrlich gesagt: Was noch unklar ist
Die maximale Videolänge, die sich pro Modell auf einmal erstellen lässt, und die Credits für die Avatar-Erstellung (das Bild) selbst sind nicht eindeutig veröffentlicht, da sie je nach Modell und Einstellung variieren.
(Auch die maximale Auflösung unterscheidet sich je Modell. Wie in der Tabelle oben gibt es ein Gemisch aus Modellen bis 720p und solchen bis 1080p.)
Die genauen Kosten werden dafür direkt vor dem Generieren auf dem Bildschirm als voraussichtliche Credits angezeigt, danach kannst du dich richten.
Außerdem gibt es zum Start noch keine API (externe Anbindung), sie soll aber später kommen.

🙋 Für wen lohnt sich das also?

Aus unserer Sicht ist es besonders für diese Leute stark.

Shorts- und Reels-Creator: Den Kanal mit einem konsistenten 'KI-Darsteller' führen, ohne das eigene Gesicht zeigen zu müssen.
UGC-Werbung und Performance-Marketer: Werbevarianten durch reines Variieren des Hooks in Massen produzieren, A/B-Tests werden einfach.
Ersteller von Kurs- und Bildungsinhalten: Eine Kursreihe mit 'demselben Dozenten' fahren und nach Fach und Sprache erweitern.
Verantwortliche für Marken und Social Media: Beständig Social-Content produzieren, ohne jedes Mal zu drehen.
Wer mehrsprachige Erklärvideos braucht: In Kombination mit den mehrsprachigen Stimmen von ElevenLabs lokalisierte Videos erstellen.

Umgekehrt ist es für alle, die Videos komplett kostenlos erstellen wollen, noch ernüchternd.
Avatars (die Videogenerierung) lässt sich nämlich nur in kostenpflichtigen Plänen nutzen (im kostenlosen Plan ist keine Videogenerierung möglich).
Erfreulicherweise ist es derzeit in allen kostenpflichtigen Plänen von ElevenCreative verfügbar.

❓ Häufig gestellte Fragen

F. Reicht ein einziges Foto, um sofort einen Avatar zu erstellen?
Technisch lässt sich ein Avatar auch mit einem einzigen Foto erstellen, und sogar ganz ohne Foto über eine Beschreibung per Text (Text-Prompt).
Allerdings empfiehlt die offizielle Anleitung 3 bis 5 Fotos derselben Person aus verschiedenen Winkeln.
Mit nur einem Foto kann das Gesicht von Video zu Video uneinheitlich sein. Wer stabile Ergebnisse will, lädt mehrere Fotos hoch.

F. Kann ich auch im kostenlosen Plan sprechende Avatar-Videos erstellen?
Nein. Die Videogenerierung von Avatars ist nur in kostenpflichtigen Plänen möglich (im kostenlosen Plan ist die Videogenerierung eingeschränkt).
Sie lässt sich aber in allen kostenpflichtigen Plänen von ElevenCreative nutzen, und die Kosten werden von den bestehenden 'Image & Video'-Credits abgezogen.
Sie hängen von gewähltem Modell, Auflösung und Videolänge ab, wobei die voraussichtlichen Credits vor dem Generieren auf dem Bildschirm angezeigt werden, sodass du auf dieser Basis entscheiden kannst.

F. Gibt es einen Grund, ElevenLabs Avatars statt HeyGen oder Synthesia zu nutzen?
Der größte Unterschied ist die 'Stimme'.
Da TTS und Voice Cloning das ursprüngliche Kerngeschäft von ElevenLabs sind, sind Stimmqualität und mehrsprachige Stimmen stark.
Daran wird ein Gesicht (Lip-Sync) geheftet, sodass du das Video an einem Ort in einem Zug erstellst, ohne das Audio in einen anderen Dienst zu schieben. Das ist die zentrale Stärke.
Wenn die Stimmqualität an erster Stelle steht oder du häufig mehrsprachige Videos machst, ist es reizvoll.
(Steht umgekehrt die Budgetkontrolle pro Minute im Vordergrund, ist Synthesia eine gute Wahl, geht es vor allem um die mehrsprachige Übersetzung bestehender Videos, auch HeyGen.)

F. Kann ich dieselbe Person durchgängig nutzen, ohne dass sich das Gesicht von Video zu Video verändert?
Ja, genau das ist der Kern von Avatars.
Ein einmal erstellter Avatar behält eine dauerhafte Identität und tritt unabhängig von der Anzahl der Generierungen in vielen Videos mit demselben Gesicht auf.
Mit der Funktion 'Styles' kannst du Varianten erstellen, bei denen nur Winkel, Kleidung oder Hintergrund verändert sind, sodass vielfältige Inszenierungen möglich sind, während die Identität erhalten bleibt.

🎁 Zum Schluss

Fassen wir das Wichtigste noch einmal zusammen.

Avatars = eine neue Funktion, bei der eine aus Foto oder Text erstellte KI-Person als lippensynchron sprechendes Video herauskommt.
Stimme und Lippensynchronisation auf einem Bildschirm in einem Zug → kein lästiges Audio-Verschieben, präziserer Sync.
Ein einmal erstellter Avatar ist dauerhaft wiederverwendbar, mit Styles variierst du Winkel, Kleidung und Hintergrund.
Mit dem Avatar-Node in Flows produzierst du UGC-Werbung und Shorts in Massen, nach Hook und Sprache.
Manche Werte wie Preis, Länge und das automatisch gewählte Modell sind nicht veröffentlicht → prüfe die vor dem Generieren angezeigten Credits.

Der 'Champion der Stimme' hat jetzt auch das 'Gesicht' in der Hand.
Eine Ära, in der von der Stimme bis zum Video alles in einem Fluss zusammenläuft, hat begonnen.

Wenn du einen kostenpflichtigen Plan nutzt, lade noch heute ein paar Fotos hoch
und erstelle deinen eigenen KI-Darsteller.
Wie aus einer einzigen Skriptzeile ein 'sprechendes Video' wird, spürst du nach einem einzigen Versuch in einer Minute!

👉 Jetzt mit ElevenLabs Avatars starten →

Im nächsten Beitrag sind wir mit weiteren nützlichen Tipps wieder für dich da.
Das war Sonetho. ⚡