
„Ein Podcast mit meiner eigenen Stimme?“
Das ambitionierte GenFM-Feature von ElevenLabs hat ein umfassendes Update erhalten.
Damit fordert ElevenLabs direkt den „AI-Podcast“-Hype heraus, den Googles NotebookLM entfacht hat.
Kann ElevenLabs den Tech-Riesen Google tatsächlich vom Thron stoßen?
Sonetho hat die Funktion für Sie unter die Lupe genommen.
🎯 Auch wenn es noch holprig klingt, deiner 'eigenen Stimme' kann Google nicht folgen
Bei der Natürlichkeit der Gespräche liegt GenFM zwar noch eine Stufe hinter NotebookLM, doch 'einen Podcast mit der eigenen Stimme (PVC) zu erstellen' ist eine einzigartige Waffe von ElevenLabs, die Google niemals nachmachen kann. Wenn du es nicht als perfektes Endergebnis, sondern als 'Entwurf' betrachtest, ist es auch jetzt schon gut zu gebrauchen.
🎵 Einen Podcast-Entwurf mit meiner eigenen Stimme erstellen →
PVC ist auch im kostenlosen Plan testbar · Zum Aufbau des Skript-Grundgerüsts auch jetzt schon spitze
Hallo zusammen! Hier schreibt das Team vom Sonetho. ⚡
Das aktuelle Top-Thema in der KI-Branche ist zweifellos das „Audio Overview“-Format.
Das Prinzip ist simpel: Man füttert die KI mit Texten oder Dokumenten, und zwei KI-Stimmen führen einen lockeren Dialog darüber, um die Inhalte unterhaltsam zusammenzufassen.
Da Google NotebookLM mit einer beeindruckenden Performance vorgelegt hat (inklusive authentischer Reaktionen wie „Warte mal, lass mich das kurz erklären!“), waren die Erwartungen an die Audio-Spezialisten von ElevenLabs natürlich extrem hoch.
Heute teile ich mit Ihnen meinen ehrlichen Erfahrungsbericht, nachdem ich einen meiner ausführlichen Blogartikel durch das Tool gejagt habe.
1. Große Erwartungen: Meine Stimme als Radio-Host?
In puncto Anpassungsmöglichkeiten gewinnt ElevenLabs haushoch. Während man bei Google auf die Standardstimmen festgelegt ist, erlaubt ElevenLabs die Nutzung der eigenen PVC (Professional Voice Cloning)-Stimmen.
[▼ Menü: Projects → Create a podcast]

Ich habe die URL eines meiner 3-Anbieter-Vergleichsartikel eingefügt und die Hosts als „Anna Schmidt“ und „Lukas Weber“ konfiguriert – basierend auf meinen hochwertigen PVC-Modellen.
[▼ Podcast-Lineup: Host Anna (PVC), Gast Lukas (PVC)]

2. Detail-Steuerung: Regie führen wie ein Profi
In der Advanced Configuration konnte ich spezifische Anweisungen für den Gesprächsverlauf geben.

„Vergleiche die drei Anbieter, aber betone, dass ElevenLabs in Sachen Natürlichkeit die Nase vorn hat. Gestalte das Gespräch wie eine dynamische Tech-Review-Show.“
Bis hierhin lief alles reibungslos. Voller Vorfreude klickte ich auf den Generate-Button.
3. Das Ergebnis: „Gut... aber mit Luft nach oben.“
Hier ist das Resultat. Werfen wir zunächst einen Blick auf das von der KI generierte Skript.
[▼ KI-generiertes Skript inklusive Regieanweisungen]

🎧 Das tatsächliche Ergebnis anhören (GenFM)
(Klicken Sie auf Play, um den Test-Podcast anzuhören)
Die Stärken:
- Emotionale Tiefe: Die KI baut eigenständig Nuancen wie „[Seufzer]“ oder gezielte Pausen ein.
- Präzise Inhaltsanalyse: Die Kernaussagen meines Artikels wurden inhaltlich hervorragend erfasst.
- Lebendige Betonung: Dank des V3 (Alpha)-Modells wirkt die Sprachmelodie in vielen Passagen sehr natürlich.
Die Schwachstellen (Kritikpunkte):
1. Satzstruktur wirkt teils konstruiert
Manche Formulierungen klingen noch zu sehr nach „geschriebenem Text“ und weniger nach spontanem Dialog.
Das typische Ins-Wort-Fallen, gemeinsames Lachen oder die impulsiven Zwischenrufe, die NotebookLM so realistisch machen, wirken hier noch etwas hölzern.
2. Timing: Der fehlende „Atem“
Der größte Kritikpunkt ist das Sprechtempo beim Sprecherwechsel. In einem echten Gespräch gibt es natürliche Pausen oder minimale Überlappungen.
Hier schaltet die KI oft fast übergangslos (innerhalb von Millisekunden) zum nächsten Sprecher um.
Das liegt vermutlich am aktuellen Stand des V3 Alpha Modells, bei dem das natürliche „Ausklingen“ der Sätze noch Feinschliff benötigt. Auf Dauer wirkt das Gespräch dadurch etwas gehetzt. 😅
4. Fazit: Vorteil Google – vorerst?
Hand aufs Herz: In Sachen „natürliches Geplänkel (Banter)“ hat Googles NotebookLM momentan noch leicht die Nase vorn.
GenFM von ElevenLabs ist jedoch ein hervorragendes Werkzeug für informative Podcasts zur Wissensvermittlung. Wer jedoch eine absolut perfekte Talkshow-Atmosphäre erwartet, muss noch ein wenig Geduld haben.
💡 Profi-Tipp zur Nutzung
- Als Skript-Generator: Nutzen Sie das Tool, um ein starkes Grundgerüst zu erstellen.
- Manuelle Verfeinerung: Wenn Sie das Skript manuell um umgangssprachliche Füllwörter wie „Echt?“, „Wahnsinn!“ oder „Na ja...“ ergänzen, schlägt das Ergebnis jede Standard-KI um Längen.
Ausblick: Das Warten auf die finale V3
Am Ende entscheidet die Natürlichkeit. Wir sind zuversichtlich, dass das finale V3-Modell (und der Flash v2.5 für High-Speed-Processing) den Kontext so tiefgreifend versteht, dass Tags wie [laugh] oder [sigh] kaum noch nötig sein werden, um die letzte Steifheit abzulegen.
„Liebes ElevenLabs-Team, bitte veröffentlicht bald die finale V3. Wir stehen in den Startlöchern!“ 😵💫
Möchten Sie trotzdem schon jetzt einen Podcast mit Ihrer eigenen Stimme erstellen? Es lohnt sich!
In meinem nächsten Beitrag zeige ich Ihnen einen „Hybrid-Hack“: Google (für das Skript) + ElevenLabs (für die Stimmen). Bleiben Sie dran!
📂 [Download] Original-Podcast-Ergebnis
Hören Sie sich den KI-Dialog in voller Länge an und vergleichen Sie selbst.