「同じ台本なのに、昨日生成した音声と今日生成した音声で雰囲気が違うのはなぜ?」
ElevenLabs(イレブンラボ)を使っていると、誰しも一度は経験することです。
実はその違いの8割は、「プロンプト(テキスト入力)をどう書いたか」で決まります。
こんにちは、Sonethoです ⚡
ElevenLabsにおける「プロンプト」とは、難しいものではなく、皆さんが音声に変換しようと入力するテキストそのものを指します。
しかし、このテキストが単なる「文字の塊」ではないという点が重要です。
「本当にすごいですね」という同じ文章でも、
そのまま入力すれば平坦に読み上げますが、
前に感情タグを一つ付けるだけで、本当に驚いたような演技をしてくれます。
数字一つ、句読点一つ、ハイフン一つで結果は大きく変わります。
ほぼ3年間、毎日ElevenLabsを使いこなしてきた当ラボが、
今日は「プロンプトの書き方」を徹底的に掘り下げます。
v3オーディオタグ、発音矯正、読みの区切り、そしてそのままコピー&ペーストして使える実戦テンプレートまで詰め込みましたので、ぜひ最後までご覧ください!
📌 まず確認:プロンプトは「モデル」によって動作が異なります
本題に入る前に一つだけ押さえておきましょう。
これから紹介する「オーディオタグ(audio tag)」 — つまり [excited] や [laughs] といった角括弧コマンドは、Eleven v3モデルでのみ動作します。
v2(Multilingual v2)にこのタグを入れるとどうなるでしょうか?
タグを「演技」に変換するのではなく、タグを解釈できず、ただの一般テキストとして処理してしまいます(タグがそのまま読み上げられたり、無視されたりします)。 😅
(実際にv2とv3に同じ文章を入力して比較した実験は、Eleven v3 vs v2 日本語比較で9つのトラックを聴き比べることができます。)
要約
• 感情・効果音タグを使いたい → v3
• 長いコンテンツ + 声の統一感が重要 → v2(段落ごとにトーンが変わるv3の弱点を回避)
• 発音矯正・読みの区切り(ハイフン)は → v2・v3どちらも適用されます
モデル別の長所・短所をより深く知りたい方は、実ユーザーによるv2 vs v3のノウハウの記事も併せてご覧ください。
🎭 1. v3オーディオタグ総まとめ(感情・効果音)
オーディオタグは、角括弧 [ ] の中に「どのように話してほしいか」という命令を英語で書くものです。
公式には「タグがその後のテキストのデリバリー(伝え方)に影響を与える」と案内されていますが、
実際に使ってみると、文の前に付けると文全体のトーンを整え、
文の途中に挟むと、その場で効果(笑いや溜息など)を出すことが多いです。
(絶対ルールではありませんが、この使い方が最も自然です。)
重要なポイントを2つ覚えておいてください。
タグは日本語ではなく「英語」で記入します。([感動]より [excited] の方がはるかに精度が高いです)
タグ自体は音声として出力されません。演技の指示書なので、「エキサイテッド」とは読みません。
(これはv3のみの仕様です。)
① 感情トーンタグ(文の前に付けると効果的です)
タグ | 意味・効果 | 利用シーン |
|---|---|---|
[excited] | 高揚した・ワクワクしたトーン | イベント告知、新製品紹介 |
[sad] | 沈んだ・悲しいトーン | 感性的なナレーション、物語の朗読 |
[angry] | 怒った・激昂したトーン | キャラクターの台詞、ドラマチックなシーン |
[whispers] | 囁くようなトーン | 内緒話、ASMR風、緊張感 |
[sarcastic] | 皮肉っぽい・嫌味なトーン | ユーモアコンテンツ、キャラの個性 |
[curious] | 興味津々なトーン | 質問形式のナレーション |
[nervous] | 緊張した・震えるトーン | 緊迫した状況の描写 |
[calm] | 落ち着いた安定したトーン | 瞑想、ガイド音声 |
入力例(v3):
[excited] 皆さん、ついに新製品が登場しました!
[whispers] 実はですね、今日だけの特別割引をご用意しています。
👉 最初の一文はトーンが高くなり、二文目は急に声を落として囁くように読みます。
このように一つの台本内でトーンを変えながら演出できるのがv3タグの最大の魅力です。
② 効果音(非言語)タグ(主に文の途中に挟みます)
これは「トーン」ではなく実際の音を出します。
笑い、溜息、咳払いのような「言葉ではない音(非言語表現)」をその場で再生します。
タグ | 出力される音 | 推奨位置 |
|---|---|---|
[laughs] | 笑い声 | 文の途中・終わり |
[chuckles] | 軽くフフッと笑う | 文の途中・終わり |
[sighs] | 溜息 | 文の頭・途中 |
[gasps] | 息を飲む驚きの声 | 文の頭 |
[clears throat] | 咳払い | 文の頭 |
[exhales] | 息を吐き出す音 | 文の途中・終わり |
入力例(v3):
あ、これをまた忘れてた。 [sighs] もう一度最初からやり直しだ。
それで、私が昨日何をしたかというと… [laughs] とんでもないミスをしちゃいまして。
📌 ワンポイント:タグは「欲張りすぎない」のが成功のコツ ⚡
複数のタグを組み合わせることも可能ですが、一つの文にタグを詰め込みすぎるとトーンが不安定になったり(速度がバラバラ、ノイズが発生)、単純に無視されたりすることがあります。
当ラボの検証結果では、1文につきタグ1つを基本とし、本当に必要な場所にだけ入れるのが最も自然です。
🔤 2. 発音矯正:固有名詞・英語・数字が上手く読めない場合
どんなにプロンプトを工夫しても、AIが専門用語や固有名詞を間違えて読んでは台無しです。😭
発音の問題はトーンや感情とは完全に別の領域ですので、解決法も異なります。
発音を正す方法は大きく分けて3つあります。
① カタカナでの書き下し(最も簡単、即効性あり)
単に聞こえる音のままカタカナにしてプロンプトに入力する方法です。
ChatGPT → チャットジーピーティー
API → エーピーアイ
2026年 → ニーゼロニロクネン (数字がうまく読まれない時)
一度きりの台本ならこれが一番早いです。
② ハイフンで発音を区切る
二つの音がくっついて変に読まれる時(例:「七十七」が変に繋がるなど)、間にハイフンを入れるときれいに区切れます。
ナナ-ジュウ-ナナ / チャット-ジーピーティー / エー-ピー-アイ
ハイフンは発音の分離だけでなく、ごく短い「間」も作ってくれます。詳細は以下の「読みの区切り」で解説します。
③ 発音矯正辞書(繰り返し使うなら必須)
同じ固有名詞が動画ごとに何度も出てくる場合、毎回書き下すのは大変です。
そんな時は「発音矯正辞書(Pronunciation Dictionary)」に一度登録しておけば、
元のテキストをそのまま入力しても、辞書に従って自動的に変換して読み上げてくれます。
🚨 よくある失敗(クレジットの無駄遣いに注意!)
発音辞書のAlias(別名)欄には、日本語として読み上げられる音であれば日本語(カタカナ)も適用されます。ただし、英語として明確に読み上げたい場合や結果が不安定な時は、聞こえるままの英語スペル(Eat Subなど)の方が安定します。 ✅ ITSUB → Eat Sub
※ 注意点:発音辞書のAliasにはハイフンを入れないでください。ただのスペース区切りの英語(Eat Sub)で大丈夫です。
ハイフン(-)は発音辞書用ではなく、本文テキストでの読みの区切り用ツールです(下の3番を参照)。
発音辞書の作り方は、スクリーンショット付きで ElevenLabs発音矯正完全ガイド に1分で読めるようまとめてあります。
発音が崩れる場合はまずこの記事をご覧ください!
ちなみにv3はv2よりも、見たことのない数字・記号パターン(例:「$22」→「22ドル」)を柔軟に処理します。
ただし、同じ英単語でも出力の中でアメリカ英語↔イギリス英語と揺れる弱点があるので、
発音の一貫性が重要な場合は、発音辞書で固定しておくのが安全です。
⏸️ 3. 読みの区切り・呼吸制御:句読点とハイフンの魔法
プロンプトにおいて、実は最も強力なツールが句読点です。
AIは我々が入力した記号を見て、「どこで休み、どれくらい切るか、どんなトーンで終わるか」を判断します。
① 記号による「間」の感覚
記号 | 効果 | 間の長さ |
|---|---|---|
読点(、) | 軽く切って続ける | 短い |
句点(。) | 文の終わり、トーンが下がる | 中間 |
改行(Enter) | 段落分け、呼吸リセット | 長い |
疑問符(?) | 語尾が上がる | 中間 |
感嘆符(!) | 力が入る | 中間 |
三点リーダー(…) | 余韻・ためらい | 長い(滑らかに) |
ハイフン(-) | ごくわずかな区切り | 極めて短い |
② ハイフン(-) — 秘蔵テクニック
読点を入れると長すぎて不自然、かといって入れないと発音が詰まる。
その「絶妙な間」を埋めるのがハイフンです。
発音分離: 七-十七 → 変な繋がりを防ぐ
微細な呼吸: さあ、それでは- 次の文へ自然に繋げる
緊張感演出: それは-まさに- 少し切りながら呼吸を作る
ハイフン活用術の元祖的解説は 実ユーザーのノウハウまとめ記事 に詳しく記載しています。「読点ではなくハイフン」が重要ポイントです。
📌 v3ユーザーは必見:改行は諸刃の剣
v3には改行(段落区切り)ごとに音声のトーンが再調整される特性があります。
そのため、長いコンテンツでトーンを一定に保ちたいなら改行を最小限にして一塊で入力するのが安全であり、逆にシーンごとに雰囲気をガラリと変えたいなら意識的に改行を活用してください。
③ 精密な休止(ポーズ) — モデルにより方法が全く異なります ⚡
「ここでちょうど1秒止めて」のような正確なポーズが必要な時、混乱される方が多いです。
使用するモデルによって方法が全く異なるからです。(公式ドキュメントに基づきまとめます)
状況 | ポーズの入れ方 | 備考 |
|---|---|---|
v3モデル | [pause] · [short pause] · [long pause] | 角括弧タグ — v3専用 |
v2 · Turbo · Flash | <break time="1.5s" /> | 秒単位指定、v3では機能しない |
Studio(Webエディタ) | 「休止(pause)挿入」ボタンをクリック → 時間を設定 | テキストに打つ必要なし、最も簡単 |
🚨 最も多いミス:v3の台本に <break> タグを入れる
v3はSSMLのbreakタグをサポートしておらず無視されます。v3で休止を入れるには [pause] タグか、上の表にある三点リーダー(…)やダッシュ(—)を使用してください。
逆にv2系では[pause]が効かないので <break> を使ってください。どのモデルを使っているか確認するのが重要です。
ちなみに、Studio(Webエディタ)で作業するなら、タグを手打ちする必要はなく、エディタの休止挿入ボタンを押して時間を指定するだけで完了するので一番快適です。
※ どの方法でもやりすぎは禁物 — 一つの台本にポーズを入れすぎると音声が不安定になることがあります。
📋 4. 実戦プロンプトテンプレート集(コピペ用)
理論は以上です。すぐに使えるテンプレートを差し上げます。
角括弧タグはv3基準、通常の記号・ハイフン・カタカナ書き下しはv2・v3どちらも有効です。
① YouTubeの解説系ナレーション
[curious] 皆さん、これ知っていましたか?
今日お伝えする内容は-本当に簡単ですが、効果は抜群です。
[excited] それでは、早速始めていきましょう!
ポイント:導入は[curious]で好奇心をそそり、本題に入る時は[excited]でテンションアップ。ハイフンで一呼吸。
▶ 推奨モデル:Eleven v3
② キャラクターの台詞(感情演技)
[whispers] 誰にも言っちゃダメだよ…
[nervous] 実はね、あの日私もそこにいたんだ。
[sighs] 今さら後悔しても仕方ないか。
ポイント:短い文 + 強い感情タグ = v3の独壇場。キャラの吹き替えやWebtoonの動画化に最適。
▶ 推奨モデル:Eleven v3
③ 製品広告(15秒前後)
[excited] たった一日限定!今日だけの特別価格です。
迷っていると-届くのが遅れるだけですよ。
[calm] 今すぐ、賢い選択をしてみませんか。
ポイント:テンション → コピー → 落ち着いた結びで強弱を調整。英語はカタカナにして誤読を防止。
▶ 推奨モデル:Eleven v3
④ 落ち着いたガイド・案内音声
お客様、こんにちは。
これより設置方法を、順を追ってご案内いたします。
まず電源ボタンを、三秒間長押ししてください。
ポイント:タグなし、読点のみで一音一音丁寧に。一貫性が重要な長文案内はv2が安定します。
▶ 推奨モデル:Eleven Multilingual v2
✅ プロンプト作成チェックリスト
感情・効果音タグを使う場合 → モデルはv3になっているか?
タグは英語か、基本は1文につき1つに抑えているか?
英語・固有名詞・数字はカタカナやハイフンで矯正したか?
繰り返し出る固有名詞は発音辞書に登録したか?
長い台本でトーンが揺れるなら → 改行を減らすかv2に変更したか?
出力後、プレビューで一度は聴いてみたか? (目で見るだけでは分かりません!)
❓ FAQ — プロンプトに関するよくある質問
Q. [excited] のようなタグを入れたのに、そのまま「エキサイテッド」と読んでしまいます。なぜ?
現在使用しているモデルが v2(Multilingual v2)である可能性が高いです。
オーディオタグは Eleven v3でのみ機能します。モデルをv3に切り替えて再試行してください。
Q. タグは必ず英語で書かないといけませんか? [感動] ではダメですか?
日本語のタグも通じることがありますが、安定性に欠けます。
v3タグは英語をベースに学習されているため、[whispers], [laughs] のように英語で書くことを強く推奨します。
Q. 数字や英語の略語がおかしく読まれます。最速の解決策は?
一度きりの台本ならカタカナでの書き下し(API → エーピーアイ)が最速です。
繰り返し使う言葉なら発音辞書に英語の綴りで登録してください(Alias欄にはハイフンなしで 'Eat Sub' のように)。
音がくっつく場合はテキストにハイフン(ナナ-ジュウ-ナナ)を入れるのが特効薬です。
Q. 長い台本だと途中で声のトーンが変わります。防げますか?
v3は改行(段落)ごとに音声が再調整される特性があるため、改行を減らして一塊で入力すると緩和されます。
それでもダメなら、声の一貫性に優れた v2に変更するのが確実です。
Q. 感情タグを複数入れると、より豊かになりますか?
複数のタグを組み合わせることは可能ですが、一つの文に詰め込みすぎるとトーンが不安定になったり(速度変動・ノイズ)、無視されることが多いです。
1文に1つを基本に、本当に必要な箇所にだけ使うのが最も自然です。
🎁 最後に
今日のポイントを再整理します。
感情・効果音タグ([excited], [laughs])はv3専用。英語で、1文につき1つが基本。
発音はカタカナ書き下し → ハイフン → 発音辞書(Aliasは英語綴り、ハイフンなし)の順で解決。
読みの区切りは記号で、微細な呼吸はハイフンで、精密な休止はモデルに合わせて(v3=[pause]・v2=<break>・Studio=休止ボタン)。
トーンが揺れるなら改行を減らすかv2へ。
ElevenLabsは結局のところ「どう使いこなすか」の勝負です。
同じ文章でもプロンプト次第で、平坦な朗読がプロの声優による演技に変わります。
上記のテンプレートの一つをコピーしてElevenLabsの入力欄に入れ、プレビューを聴いてみてください。
タグが演技に変わる瞬間をすぐ体感できるはずです。
今日のテンプレートとチェックリストをブックマークして、台本を書くたびに見返してください。
皆さんのテキストが、より生き生きとした声に変わるはずです!
次回の投稿でも、より有益なチップスをお届けします。
Sonethoでした ⚡