
「自分の声でポッドキャストを作れるって本当?」
ElevenLabsが満を持してリリースした注目のGenFM機能がアップデートされました。
GoogleのNotebookLMが巻き起こした「AIポッドキャスト」ブームに真っ向から挑戦状を叩きつけた形です。
果たしてElevenLabsはGoogleを超えることができるのでしょうか?
Sonetho(イレブンラボ・ラボ)が、その実力を徹底検証してみました。
🎯 まだぎこちなくても、「自分の声」はGoogleには真似できません
GenFMは会話の自然さではまだNotebookLMに一歩劣りますが、「自分の声(PVC)でポッドキャストを作る」というのはGoogleには絶対にできない、ElevenLabsだけの武器です。完璧な成果物ではなく「下書き用」として捉えれば、今でも十分使えます。
PVCは無料プランでも体験可能 · 台本の骨組みを作るには今でも最高です
こんにちは!Sonethoです。⚡
最近のAI業界における最大のホットトピックといえば、間違いなく「音声概説(Audio Overview)」機能です。
テキストを入力するだけで、2人のAIホストが楽しげに雑談を交わしながら内容をわかりやすく要約してくれる革新的な技術です。
先行するGoogleのNotebookLMが、非常にリアルな掛け合い(「ちょっと、最後まで話させてよ!」といった生々しい反応まで再現)を見せてくれただけに、
音声AIのパイオニアであるElevenLabsがどのような反撃に出るのか、大きな期待が集まっていました。
今回は、私が実際に当ブログの過去記事を入力して生成してみた「本音のレビュー」を、包み隠さずお届けします。
1. 期待大:自分の声でラジオ番組が作れる?
まず、「カスタマイズ性」においてはElevenLabsの圧勝です。Google(NotebookLM)は声の変更が一切できませんが、ElevenLabsなら自分の声(PVC:パーソナル・ボイス・クローニング)をそのままホストとして起用できるからです。
[▼ Projects → Create a podcast にアクセス]

今回は、当ブログで公開している「音声合成3社徹底比較分析」の記事のURLを入力し、ホストとゲストの声をそれぞれ私のお気に入りである「KKC RADIO」と「KKC Modern」に指定してみました。
[▼ ポッドキャスト出演者:ホストのDavid(旧 KKC RADIO)、ゲストのDan(旧 KKC Modern)]

2. 詳細設定:プロデューサー気分で指示を出す
さらにAdvanced Configuration(詳細設定)を開けば、番組の進行について具体的なディレクション(指示)を出すことができます。

「音声合成の競合3社を比較しつつ、ElevenLabsの自然さが圧倒的トップであることを強調して。専門的なテックレビューのようなトーンで進行してね。」
ここまでは完璧でした。「期待を胸に、いざ生成!」と心の中で叫びながら、Generateボタンをクリックしました。
3. 生成された音声の公開:「うーん、これはちょっと…」
ついに音声が完成しました。まずはAIが作成してくれた台本(スクリプト)をご覧ください。
[▼ AIが自動生成した台本と演出指示]

🎧 実際の生成音声を聴いてみる (GenFM)
(再生ボタンをクリックするとポッドキャストを再生できます)
メリット:
- 「はぁ…(ため息)」のような感情表現を促すト書き(演出指示)をAIが自動で挿入してくれます。
- 内容の要約は極めて正確。入力した記事のエッセンスを見事に捉えています。
- 最新のv3モデルで処理されているため、感情表現のクオリティ自体は非常に高いレベルにあります。
デメリット(今後の改善に期待したいポイント):
1. セリフの語尾やニュアンスが、やや「翻訳調」で不自然…!
「〜だそうですね。」「〜のようです。」
NotebookLMで見られた、あの流れるような「話を遮るタイミング」「同時に笑い合う演出」「リアルな相槌」といったライブ感がやや物足りなく感じられます。
2. 「間(ま)」が少し不自然?(掛け合いのテンポ問題)
最も惜しいのは「スピーカー間の会話の移行速度」です。人間同士が対話する場合、言葉を受け止めて考える時間や相槌のタイミングが生じるものですが、
このシステムでは、前のスピーカーが話し終えた瞬間に、間髪入れずに次の人が話し始めます。
これは、日本語の「文脈」に応じた会話間隔の制御や、語尾の自然な減衰(Trailing off)の処理がまだ完全に最適化されていないために発生する現象のようです。通して聴くと、どうしても少し不自然に感じてしまいます。😅
💡 日本語音声合成ならではの壁も?
特に日本語では、「4(し/よん)」や「7(しち/なな)」の読み分け、助数詞の「1本(いっぽん)」、あるいは「JR(ジェイアール)」といったアルファベット略語など、AIが読み間違えやすい「つまずきポイント」が多数存在します。GenFMの自動生成スクリプトでも、こうした日本語特有のイントネーションやアクセントの微細な違和感が残るため、全体の不自然さを少し助長している印象を受けました。
4. 総評:現時点ではまだGoogleが一歩リード?
冷静に評価すると、「自然な雑談(Banter)」という観点においては、現時点ではまだGoogleのNotebookLMが一歩リードしていると言わざるを得ません。
ElevenLabsのGenFMは、「正確に要約された情報を伝える番組」としては非常に優秀ですが、「生身の人間のようなおしゃべり」を期待して聴くと、少し物足りなさを感じるかもしれません。
💡 では、どのように活用すべきでしょうか?
- ドラフト(構成案)として使う: ポッドキャストの構成案や台本の骨組みを作るツールとしては非常に優秀です。
- 手作業でのブラッシュアップ: AIが作成してくれたスクリプトに対して、手動で「〜だよ」「本当に?」「すごいね!」といった自然な話し言葉や相槌(掛け合い)を少し加えてあげるだけで、全体のクオリティは劇的に向上します。
おわりに:ElevenLabs、次世代モデルのさらなる進化に期待!
最終的な仕上がりを左右するのは、やはり「自然さ(間とイントネーション)」です。現在ElevenLabsが展開している最新のv3モデル、および高速・高精度なFlashモデル、多言語に特化したMultilingualモデルのアップデートがさらに進めば、テキストに手動で[laugh]や[sigh]といった感情タグを書き込まずとも、前後の文脈を自動判別して、このぎこちなさをきれいに解消してくれるはずです。
「ElevenLabsの開発チームの皆さん、日本語に最適化されたさらなるアップデートを早くお願いします!楽しみに待っています…!」 😵💫
それでも、自分の声を使ってオリジナルのポッドキャスト原案を手軽に作れるのは大きな魅力です。ぜひ一度体験してみてはいかがでしょうか?
(※本格的な高精度ボイスクローン(PVC)機能や、より多くの生成クレジットが必要な場合は、月額22ドルのCreatorプラン、または月額99ドルのProプランへのアップグレードがおすすめです)
次回は、この「間」の違和感を完全に解消する裏ワザ「Google(台本自動生成)+ ElevenLabs(極上のクローンボイス)のハイブリッド構成法」をご紹介します。ぜひお楽しみに!
📂【付録】ポッドキャスト生成音声のオリジナルファイル
AIが作成した、少しぎこちなくもリアルな掛け合いを直接ダウンロードして確認してみてください。