ElevenLabs v3 vs v2 日本語比較:感情や一貫性の評価結果は?(4つの部門でテスト)

同一の日本語ボイスを使用し、ElevenLabsのv2とv3の品質を4つのセグメントで直接比較した聴取テストの結果をご紹介します。検証の結果、v3が感情表現、外国語対応、効果音タグの再現において明確に進化している一方、音声の一貫性や外国語発音の安定性においては、依然としてv2に軍配が上がることが分かりました。記事内では比較用の音声サンプル9トラックを実際に埋め込んで公開中。ユースケースや利用シナリオに応じた最適なモデル選択ガイドも合わせてお届けします。

「Multilingual v2とEleven v3を比べるなら、当然v3の方が良いよね?」

Eleven v3のAlpha版を経て正式リリースされたv3を「最上位モデル」と捉え、上記のように考えている方も多いのではないでしょうか。

そこで、同じ日本語ボイスを使い、v2とv3を4つのセグメントに分けて実際に音声出力し、徹底比較してみました。
感情表現の豊かさはv3が圧倒的ですが、ボイスの一貫性(ブレの少なさ)という領域においては、まだv2に軍配が上がります。
日本語ユーザーの視点からどのような違いがあるのか、実際に生成した9つのトラックとともに詳しく解説します。

 

こんにちは、Sonetho(イレブンラボ)です。 ⚡

v3が正式リリースされてから、しばらく経ちました。
すでにv3が「デフォルトモデル」のように定着しつつある雰囲気ですが、
毎日ツールを使い倒しているクリエイターの立場からすると、「v3がすべての領域でv2に勝っているわけではない」というのが正直な実感でした。(実は私も、今でもあえてv2を使い分けることがあります!)

そこで今回は、その違いを正確に検証してみることにしました。
同じ日本語ボイスを使い、まったく同じテキストをv2とv3の2つのモデルで出力し、直接聴き比べる実験です。

👉 今回の実験には、ElevenLabsの「Creatorプラン」を使用しています。
v2・v3ともに、Creatorプラン以上で高品質なPVC(パーソナルボイスクローン)が利用可能です。今なら新規登録で初月50%オフ(通常月額22ドル→11ドル)でお試しいただけます。

 


🔬 テスト方法

  • 使用モデル: Eleven Multilingual v2 / Eleven v3

  • ボイス: ElevenLabs Voice Libraryの Mike — Friendly, Balanced and Clear (PVC)

  • テキスト: 4つのセグメント(日常トーン・感情表現・英語/数字混在・効果音タグ)

  • 追加の検証要素(Segment 1のみ): v3において「改行あり」と「改行なし」の2パターンを試し、文章の切れ目による声の変動を検証

  • あえて難しいテキストを設定(Segment 3): 「GPT-5.5」や「$22(22ドル)」といった英語・数字をあえてカタカナ書きにせず原語のまま入力し、日本語の文脈における読み分けや処理能力を試験


🎙️ Segment 1 — 日常トーン(自然な平叙文)

最もオーソドックスな日本語の平叙文です。
このセグメントのポイントは、テキストの内容そのものよりも「改行を入れたときに、声のトーンがどう変化するか」にあります。

ElevenLabsのStudio上で、同じテキストを次の2つの方法で入力しました。

  • 改行あり: 4つの短い段落に分割(1文ごとに改行)

  • 改行なし: すべての文章を1つの段落に統一

v2(改行あり)

v3(改行あり)

v3(改行なし — 1つの段落に統一)

 

📌 発見 1:v3は改行のたびにボイスが微細に変化する

v2は、1回の音声出力(生成)の中であれば、どこで改行してもトーン・イントネーション・話速がほぼ一定に保たれます。
一方でv3は、改行が入るたびにボイスがまるで新しくサンプリング(再シード化)されたかのように、ニュアンスが微妙に変化してしまいます(文末が不自然に途切れる現象も起こりやすいです)。

しかし、改行をすべて取り除いて1つの段落として出力した3つ目のトラックでは、v3でも高い一貫性を保てています。
つまり、v3の一貫性の問題はモデル自体の欠陥というよりも、「段落単位でリシード(再生成)される」という動作特性によるものであると考えられます。

これがなぜ重要かというと、シリーズものの動画ナレーション、キャラクターの掛け合い、オーディオブックの章朗読など、ボイスの一貫性が極めて重視されるプロジェクトでは、v3をそのまま改行交じりで使うのは難しいということです。
対策としては、できるだけ改行(段落分け)を減らし、ElevenLabs Studioで長文をひとまとめにして処理する工夫が必要です(それでも文字数制限には注意が必要です)。

 


😊 Segment 2 — 感情表現(驚き・喜び・真面目)

同じ話者で、文脈に応じた異なる感情をどれだけ豊かに表現できるかを比較するセグメントです。

v2

v3

 

📌 発見 2:感情表現においてはv3が圧倒的

v2は、文章が持つ感情の起伏に対してトーンが比較的フラット(平坦)になりがちです。
「えっ、本当に!?」という驚きのフレーズと、「正直、ちょっとショックでした」というシリアスなフレーズが、ほぼ同じ落ち着いたテンションで再生されてしまいます。

対するv3は、ダイナミックレンジがはるかに広いです。
驚く場面では声のトーンが高く弾け、シリアスな場面では声のトーンが落ちて吐息混じりになります。

「正直、ちょっとショックでした」のような感情的なセリフでは、言葉を詰まらせるような絶妙な「間(ま)」までリアルに再現されています。

この豊かな表現力においては、v2がv3に追いつくのは困難でしょう。
広告用のナレーション、アニメやゲームの吹き替え、キャラクターボイスなど、感情表現こそが命であるコンテンツ制作では、v3が明確な最適解となります。

v3のリアルな感情表現を試してみませんか? — どちらのモデルも1つのプランで利用可能

v2とv3はどちらもCreatorプランで同時に使用でき、ご自身の声のPVC学習も可能です。新規加入なら初月50%オフ(11ドル)で、今すぐその違いを体感できます。

v2・v3の両方が使えるCreatorプランを50%オフで始める →

 


🔤 Segment 3 — 英語 · 数字 · 固有名詞の混在

今回の検証で、最も興味深いトレードオフ(一長一短)が見られた領域です。

日本語話者が自然に読み分けるのが難しい「数字の読み分け(4=し/よん、7=しち/なな、9=きゅう/く)」、助数詞(1本=いっぽん、1冊=いっさつ)、アルファベット略語(JR、NHK)、そして「GPT-5.5」「$22」「Claude Opus 4.7」「API 300ms」といった専門用語を含む文章を、あえてそのまま入力しました。

v2

v3

 

📌 発見 3(トレードオフ):学習データの充実度による適性の違い

v2は、事前学習されたデータに基づいて忠実に出力します。
もしPVCモデルの学習データに英語や数字が豊富に含まれていれば、v2でもこれらを極めて自然に、流暢な発音でこなしてくれます。
しかし、学習データに存在しない未知のパターンに直面すると、基本的な数値や記号の読み上げさえ誤ることがあります。

v3は学習データへの過度な依存が少ないため、初めて目にするような専門的なパターンも言語をまたいでスマートに処理します。
「$22」を「22ドル」と正確に訳して読み上げ、「300ms」を「300ミリ秒」と文脈に合わせてスムーズに変換する能力に長けています。

 

📌 発見 4(v3の弱点):外国語の発音一貫性

その反面、v3には「同じ英語の単語であっても、イギリス英語、アメリカ英語、あるいは日本語訛り(カタカナ発音)の間を行ったり来たりする」という挙動が見られます。
同一トラック内であるにもかかわらず「ElevenLabs」のアクセントの位置が変わったり、「Creator」の発音が途中で揺らいだりします。
動画の通しナレーションなど、最初から最後まで統一された発音が必要な場合は、リテイクや後編集の手間が増える原因になります。

v2は学習された特定の音声パターンをストレートに維持するため、発音のブレ自体は少ないですが、学習データに英語が不足していると、たどたどしい直訳風の日本語英語になってしまいます。

 

【まとめ】

  • 今回の条件(Mike - Voice Library of 公式ボイス):Mikeは学習データが豊富なため、v2でも英語や数字をそこそこ綺麗に処理できています。ただし、v3ほどの柔軟な言い換え処理(ms→ミリ秒など)は苦手です。

  • 英語・数字が豊富な「自分の声(PVC)」を学習させた場合:私の実体験からも、v2の方が発音のブレを抑えつつ、一貫したトーンで綺麗に出力できます。外国語の発音の「ブレなさ」においてはv2が優勢です。

  • 英語・数字のデータがほぼない「自分の声(PVC)」を学習させた場合:v2では数字さえも不自然な読み方になる可能性が高いです。この場合は、文脈理解力が高いv3を使うのが安全です。

  • 1つの動画内で、特定のカタカナや英単語の発音を完全に統一したい場合:v2(後編集の手間が少なく済みます)

つまり、お持ちのPVC学習データの充実度が、v2を実用できるかどうかの分かれ道になります。
今回の実験で使用した「Mike」は公式ライブラリボイス(学習データが非常に豊富)であるため、比較的恵まれた条件下での比較となっています。

 


🎭 Segment 4 — 効果音タグ([laughter] [sigh] など)

🎧 効果音タグ、読むだけでなく実際に生成してみませんか?

上記でご紹介したv3の効果音タグや豊かな感情表現は、実際にテキストを入力して生成した際、最も大きな驚きを感じる部分です。ElevenLabsのText to Speech(音声合成)に、文章と `[laughter]`(笑い)や `[sigh]`(ため息)といったタグを英語のブラケットでそのまま入力するだけで、この記事で紹介したような臨場感溢れる音声を、わずか数秒で再現できます。

🎙️ Text to Speechでv3タグを直接試してみる →

v3の強力な目玉機能の1つが、テキストに含めた効果音タグ(非言語的音声)の再現能力です。
v2に同様 of タグ入りの文章を流し込むとどうなるか、比較してみました。

v2

v3

 

📌 発見 5:v2はタグを無視してそのまま文字として読み上げる

v2モデルでは、`[laughter]` という記述がただの英単語としてそのまま読み上げられてしまいます。
v2は、ブラケットによる「効果音の指定」という概念自体を理解(処理)できません。

一方でv3は、タグ部分を「実際のキャラクターの非言語音声」にリアルタイムでシミュレートします。
`[laughter]` であれば「フフッ」という笑い声、`[sigh]` であれば深いため息の音に変換して出力されます。
この表現の領域でも、v3が圧倒的なクオリティを示しています。

 


📊 領域別の優位性まとめ — 検証データ比較

項目

v2

v3

優位性

日常トーンの自然さ

良好

非常に良好

v3

ボイスの一貫性(段落単位)

極めて安定

出力(改行)ごとに揺らぐ

v2

外国語発音の一貫性

安定

英米やカタカナの揺らぎあり

v2

感情表現のダイナミックさ

平坦(抑揚が少ない)

極めて豊か

v3

数字・記号(PVC学習済み)

自然

自然

同等

数字・記号(未学習)

苦手(読み飛ばし等)

良好(自動補正)

v3

固有名詞・外国語処理

学習データに依存

柔軟に対応

v3

効果音タグ([laughter] など)

無視(直読みされる)

音としてリアルに再現

v3

 


結論は「用途に応じた使い分け」 — それならCreatorプラン1つで解決

v2とv3、それぞれ異なる強みを持っているからこそ、どちらも制限なく扱えるCreatorプランを50%オフの11ドルで運用するのが最もコストパフォーマンスの高い選択です。

Creatorプラン50%オフでv2・v3を同時に使い始める →

🎯 コンテンツ別のおすすめモデル — ユースケース別推奨

① シリーズもの、長尺キャラクター吹き替え、オーディオブックの章朗読 — v2

複数の段落にまたがる長尺のコンテンツにおいて最も大切なのは「声の一貫性」です。
v3は改行ごとに声のリシードが発生しやすいため、章の中で声色が変わってしまうリスクがあります。
このケースでは、十分にPVC(声の学習)を行ったv2を選択するのが最も安定した結果を得られます。

② 単発の広告、感情表現が命となるボイスオーバー、演技を伴うゲーム音声 — v3

喜怒哀楽のダイナミックレンジにおいて、v2がv3に勝つことは困難です。
短尺かつ感情表現が求められるクリエイティブなコンテンツには、v3が圧倒的なクオリティを発揮します。

③ API連携・外国語資料の読み上げ・数字の多い報告書のナレーション — v3

学習元のデータに依存せず、初めて目にする複雑な単位や記号、専門用語でも文脈を捉えて自然に出力します。
ただし、外国語のアクセントや発音の一貫性をカチッと固定したい場合は、事前の調整や生成後の選別が必要な点に注意してください。

💡 外国語の資料や数字の多い報告書をv3を使ってスマートに朗読させる実践的なノウハウはこちら → ElevenReaderで外国語資料や数字の多いレポートをv3に朗読させる方法

④ 効果音タグを積極的に活用するドラマチックなコンテンツ — v3

`[laughter]`(笑い声)、`[sigh]`(ため息)、`[gasp]`(息をのむ音)などの表現を演出に組み込みたい場合は、v3以外の選択肢はありません。

⑤ 自身の学習音声(PVC)を使ってブレのない発話を行いたい場合 — v2

普段からご自身の声をクローニングしたPVCをヘビーユースしている場合、すでにある程度データが蓄積されているかと思います。
この場合、v2は一貫したイントネーションやアクセントを確実に保持して出力するため、v3よりも意図通りの声を予測・コントロールしやすくなります。

 


💡 結論 — Sonethoの見解

ElevenLabsは最新のv3をデフォルトの主力モデルとして推奨していますが、現時点においてv3がすべての面でv2を完全に代替(引退)できるわけではありません。

v3で見られる「声のわずかな揺らぎ」は、本質的なモデルの欠陥というよりは、「改行や段落単位でリシードを行う」という仕様(設計思想)に起因するものと考えられます。
これは今後のさらなるGA(一般公開)アップデート等によって改善される余地のある領域であり、引き続き動向を追跡する価値があります。

今すぐ制作活動を行う上での推奨アプローチ:
「声の一貫性 + 外国語発音の固定 + 自分のPVCの安定運用」が主目的なら、v2をベースに運用
「豊かな感情起伏 + 笑いなどの効果音演出 + 難解なテキストの処理」を狙うなら、v3を積極採用
プロジェクトごとに2つのモデルを使い分けること(ルーティング)こそが、現時点で最も賢くプロフェッショナルなTTS活用術です。

 

👉 ElevenLabsの50%割引を適用する方法については、2026年5月版 ElevenLabs割引ガイド で詳しく手順を解説しています。
👉 または、こちらの 50%割引コード自動適用リンク(新規アカウント作成用) から、ワンクリックで直接開始することも可能です。

 

📚 あわせて読みたい関連ガイド

 

また次回の記事でお会いしましょう。Sonetho(イレブンラボ)でした。⚡

 

 

📚 おすすめの関連記事

ElevenLabsはなぜ3倍高くても選ばれるのか? Google・Amazon TTSと徹底比較!(2026年価格・音質・日本語対応)

ElevenLabs APIが最大55%値下げ!従量課金制スタートガイド — モデル選択からコスト計算まで