「写真を1枚アップして、台本を書いただけなのに…その人が本当に話し出した?」
これまでElevenLabsは「声」をつくる会社でした。
ところが今回は、ついに「顔」までつくり始めました。
台本を入れるだけで、話すAIの人物動画が一発で出来上がる。Avatars(アバター)のお話です。
こんにちは、Sonethoです。⚡
かれこれ3年近く、毎日ElevenLabsを使い倒してきた経験から、
今日は2026年6月中旬に正式発表されたばかりのホヤホヤ新機能、Avatars(アバター)を引っさげてやってきました。
まず一言で言うと。
これからはElevenLabsの中だけで「話す人物の動画」を丸ごとつくれるようになりました。
写真をアップしてAI人物をつくり、台本を書いて、声を選べば
→ その人物が口の動きまでピッタリ合わせて話す動画が出てきます。
動画制作者なら一度は耳にしたことのあるHeyGen・Synthesia(話すAIアバター動画のサービス)を思い浮かべてください。
その領域に「声の最強格」ElevenLabsが乗り込んできた、というわけです。
今日はこれが何なのか、どう使うのか、既存サービスと何が違うのかを、初心者目線でとことん掘り下げていきます!
🤔 音声の会社が、なぜ急に「顔」を?
まずは用語からやさしく解きほぐしていきます。
💡 一気に分かる用語ボックス
Avatars(アバター) = 写真やテキストからつくる「自分だけのAI人物」。一度つくれば、いくつもの動画で繰り返し使い回せます。
トーキングヘッド(talking-head) = 人がカメラに向かって話す、YouTubeや広告でおなじみの「話す顔」動画。
リップシンク(lip-sync) = 声に合わせて口の動きを自然に同期させる技術。
ElevenCreative = ElevenLabsのコンテンツ制作スペース。その中の「Image & Video(画像・動画)」メニューに、今回のアバターが追加されました。
ElevenLabsの本当の武器は、誰がなんと言おうと「声」です。
TTS(文字を人の声に変える技術)とボイスクローン(声の複製)では、世界トップレベルですよね。
ところが、動画をつくる人たちはこんな不便を抱えていました。
ElevenLabsで声を生成して、
そのオーディオファイルを別のサービス(HeyGenなど)に改めてアップして、
そこで口の動きを合わせる…このハンドオフ(ファイルをあちこち移す作業)が、地味に面倒でした。
アバターは、この工程を1か所で丸ごと片づけてくれます。
声も、顔も、口合わせも → ElevenLabsの中で一気に。
音声の会社が顔をつくったというより、「音声から動画まで」を途切れなくつなぐという構想なんです。
⚙️ 仕組み:「音声のエクスポート」工程が丸ごと消えた
今回のアバターには、発表のキモになるフレーズが一つあります。
それが「prompt island(プロンプト画面)にText to Speechが直接組み込まれた」というものです。
難しそうに聞こえますが、意味はシンプルです。
💡 かんたんに言うと
台本を入力するその場所(prompt island = 指示を書き込む入力パネル)に、声を生成する機能も一緒に入っているということ。
だから声(音声)と、口を合わせた動画(リップシンク)が「一度にまとめて」生成されます。
オーディオファイルをわざわざ書き出して(export)別の場所へ移す必要が、そもそもありません。
ここでもう一つ。
ElevenLabsは「声を生成する部分」を自前で持っている会社だという点が、強みとして効いてきます。
声を生成する技術(voice model)と、口を合わせる技術(lip-sync model)が同じ屋根の下で一緒に動くので、
外部からオーディオを持ち込んで口を合わせるやり方よりシンク(口と音のタイミング)がよりピッタリ合う、と公式発表は説明しています。
口は「こんにちは」なのに、音は「さようなら」が出てしまう、あの微妙なズレが減るというわけです。
📌 ラボ・メモ:リップシンクのモデルは「自分で」選べます ⚡
ElevenLabsは複数の優れたリップシンク技術を一か所に集めておき、
生成画面で好きなリップシンクモデルを自分で選べるようにしてあります(デフォルトも用意されています)。
ポイントはモデルごとに品質・最大解像度・「秒あたりクレジット」が違うこと。すぐ下の実測表で整理しました。
🎬 やってみよう:写真から、話す動画まで、ステップごとに
実際の使い方の流れは、思ったよりシンプルです。
公式ガイドをもとに整理すると、こうなります。
ステップ1:アバター(自分だけのAI人物)をつくる
ElevenCreativeのImage & Videoメニューで、Avatar欄の「New(新規作成)」を押します。
そのあと、次の2通りのどちらかで人物をつくります。
写真をアップロード:同じ人物のいろいろな角度の写真を3〜5枚アップすると、結果が安定します。
(写真1枚だけだと、仕上がりがバラつくことがあります。)テキストで描写:写真なしでも、テキストプロンプトで「こんな人」と描写してつくれます。
ちなみに人だけでなくキャラクターや動物もアバターにできます。(人じゃなくてもOK)
ステップ2:名前をつけて、デフォルトの声を指定
アバターに名前をつけ、必要ならデフォルトの声(default voice)を決めてから、「Create Avatar」で人物を確定します。
各アバターにはあらかじめデフォルトの声が紐づきますが、いつでも変更できます。
ステップ3:話す動画をつくる
つくったアバターを選び、「Create Lip Sync(リップシンクをつくる)」を押します。
そして ① スタイルを選ぶ → ② 声を選ぶ(ライブラリの声、または自分で複製した声)→ ③ 台本を入力 → ④「Generate speech」で音声を生成してプレビュー。
ステップ4:生成
必要なら動画の雰囲気を決めるビジュアルプロンプトを少し足してから、「Generate」を押せば完了。
口を合わせた動画が、声つきで仕上がります。
💡 クレジットは、押す前にチェック
アバター動画は、既存の「Image & Video」クレジットの仕組みに従います。
コストは選んだリップシンクモデル・出力解像度・動画の長さによって変わります。
ありがたいことに、生成ボタンを押す前に、画面に予想クレジットが先に表示されます。見てから押しましょう!
(解像度は480p・720p・1080pに対応していますが、一部の条件では解像度や画面比より「動画の長さ」のほうがクレジットに効いてきます。)
そこで私たちが、2026年6月の実際のモデル選択画面から、リップシンクモデルごとの秒あたりクレジットをそのまま書き写してきました。(数字が小さいほど安い)
リップシンクモデル | 秒あたりクレジット | 特徴(公式説明) |
|---|---|---|
Veed Lipsync | 41 | 速くて安い、動画リップシンク |
Sync Lipsync 2 Pro | 661 | 実写・アニメ・AIコンテンツ向けのスタジオ級 |
Creatify Aurora | 848 | 画像から最高品質、ガイド付きリップシンク |
Sync 3 | 1,053 | ビジュアルインテリジェンス、プロ品質 |
HeyGen Avatar 4 (新登場) | 1,212 | 表現力豊かな動き、最大1080p |
Veed Fabric | 1,212 | どんな画像でもリアル、最大720p |
OmniHuman 1.5 | 1,267 | リアルなリップシンク、非人間の顔にも対応 |
⚠️「秒あたり」という落とし穴、長さにそのまま比例します
秒あたりのクレジットなので、動画が長いほどコストがグングン上がります。
例)Sync 3(1,053/秒)で30秒の動画 → 約31,600クレジット。1分なら約63,000クレジット。
Creatorプラン(月およそ12万クレジット)で考えると30秒の動画を3〜4本くらい。正直、余裕があるとは言えません。
一方でVeed Lipsync(41/秒)のような安いモデルなら30秒で約1,230クレジット、同じクレジットで数十倍多くつくれます。
品質↔コストのトレードオフですね。さらにアバター(画像)の生成クレジットは別枠です。上の秒あたりクレジットは「話す動画(リップシンク)」部分のコストです。
※ 秒あたりクレジットは2026年6月のモデル選択画面の実測値です。モデルや価格ポリシーは随時変わるので、生成直前の画面に出る予想クレジットを必ず確認してください。
🪪 一度つくれば、ずっと使える:変わらない同一性と「スタイル」の派生
アバターの本当の強みは「使い回し」です。
一度つくったアバターは「変わらない同一性(persistent identity)」を持ちます。
かんたんに言えば、一度つくったその人物をいくつもの動画にずっと同じ顔で登場させられるということ。
動画ごとに顔が微妙に変わってしまう、という事故が起きません。
そこに「Styles(スタイル)」機能が加わります。
同じ人物の核となる同一性はそのままに、次のような点を変えた派生をつくれます。
カメラのアングル(正面 / 横向き など)
衣装(スーツ / カジュアル など)
背景と照明
たとえば「自社ブランドの案内役」を一人つくっておき、
オフィス背景のスーツ版、屋外のカジュアル版、クローズアップ版を同じ人物として出して使う、という具合です。
このアバターとスタイルは生成回数に関係なくずっと維持され、いくつものプロジェクトで再利用できます。
📌 これがなぜ大事かというと ⚡
YouTubeチャンネルでも広告でも、「同じ顔」がずっと出続けてこそ、視聴者はブランドを覚えます。
毎回撮影したり、毎回違うAI人物を使ったりすると、一貫性が崩れてしまいます。
アバターは「一度つくって、ずっと活躍してもらえる」出演者を手に入れさせてくれます。
🔁 Flowsで「大量生産」:UGC広告を一気に量産する
ここからは少し上級編、でもマーケターやUGC制作者には激アツです。
💡 用語は二つだけ
Flows(フロー) = 作業を自動のベルトコンベアのように次々つなげて実行する自動化機能。
UGC広告 = 「ユーザー自身が撮ったような」レビュー風の広告。いまInstagram・TikTok・ショート動画で一番ウケるフォーマットですね。
今回、Flowsに「Avatarノード(アバターのブロック)」が新たに追加されました。
これを組み込むと、アバター動画の生成を自動パイプラインにつなげられます。
公式の例の流れをそのまま書き写すと、こうです。
① 製品ブリーフ(かんたんな製品説明)を入力
② AIが台本を生成
③ ボイスオーバー(ナレーション音声)を生成
④ アバターがその台本を話す動画を生成
そしてこれを製品別・言語別・フック別にまとめて(batch)実行します。
ここでいう「フック(hook)」とは、動画の冒頭3秒をつかむ導入のひと言のことです。
たとえばフックだけを5パターンに変えて(「これ知らないと損」「3秒だけ見て」など)、一度に5種類の広告バリエーションを量産できる、というわけです。
ショート動画やリール広告のように「どの導入がウケるか」を何バージョンも回して試す作業にピッタリ。
毎回撮り直す必要がないですからね。
⚖️ HeyGen・Synthesiaと何が違う?(正直比較)
「もうHeyGenもSynthesiaもあるのに、なんでElevenLabs?」
当然の疑問です。要点だけお伝えします。(価格は公式・比較資料ベースで、プロモーションや支払いサイクルによって変わることがあります。)
サービス | 強み / 課金方式 | こんなときに |
|---|---|---|
ElevenLabsアバター | 声が本業 → 音声+顔を一か所で。クレジット制 | 音声品質を最優先、多言語ボイス |
Synthesia | 「分」単位の課金で予算が読みやすい。アバターのリアルさも評判が良い | 企業研修・社内向け動画 |
HeyGen | クレジット制。既存動画の多言語翻訳に強い | マーケティング・海外向けコンテンツの翻訳 |
核心となる違いを一言でまとめると、こうなります。
ElevenLabsは「音声ファースト統合」です。
もともと声が世界最高級の会社が、その声に顔(リップシンク)をくっつけて一つの画面で一気につくれるようにしたもの。
オーディオをあちこち移さなくてよく、音声と口のシンクがより精密だというのが強みです。
価格感覚も少しだけ触れておきます。(2026年6月時点)
HeyGen:クレジット単位。看板のアバター機能(Avatar IV)で1分あたり約$1(Creatorプラン)。
Synthesia:分単位のサブスク。年払い換算で1分あたり約$1.8〜2.1。
ElevenLabsアバター:選ぶリップシンクモデルによって1分あたり約$0.45(安い)〜$13.8(プレミアム)と幅が大きいです(上の秒あたりクレジット表を参照)。
💰 で、結局どっちが安いの? 第2回でとことん計算しました
正直、高画質をたくさんつくるなら専用プラットフォーム(HeyGen・Synthesia)のほうが1分あたり安くなることもあり、
たまに・少量・統合ワークフローならElevenLabsが有利です。
「ひと月に何分つくるか」で分かれる損益分岐点を、1分あたりの実費表でとことん詰めてみました。
→ [アバター費用対決] 直接サブスク vs ElevenLabs、本当にどっちが安いか見にいく →
🚨 正直に言うと、まだハッキリしないこと
モデルごとの一度につくれる動画の最大の長さや、アバター(画像)生成そのもののクレジットは、モデルや設定によって変わるため、キッチリ公開されているわけではありません。
(最大解像度もモデルによって違います。上の表のように、720pまでのモデル、1080pまでのモデルが混在しています。)
代わりに正確なコストは生成直前の画面に予想クレジットとして表示されるので、それを見てから押せば大丈夫です。
また、リリース時点ではAPI(外部連携)は未提供で、今後の提供予定とされています。
🙋 で、結局、誰におすすめ?
ラボから見ると、こんな方々に特に強力です。
ショート動画・リールのクリエイター:顔出しのプレッシャーなしで、一貫した「AI出演者」でチャンネルを運営。
UGC広告・パフォーマンスマーケター:フックだけ変えて広告バリエーションを大量生産、A/Bテストがラク。
講座・教育コンテンツの制作者:「同じ講師」でシリーズ講座を、科目・言語ごとに展開。
ブランド・SNSの運用担当:毎回撮影しなくても、ソーシャル向けコンテンツをコンスタントに量産。
多言語の説明動画が必要な方:ElevenLabsの多言語音声と組み合わせて、ローカライズ動画を制作。
逆に、完全無料で動画をつくりたい方には、まだ物足りません。
アバター(動画生成)は有料プランでのみ使えるからです(無料プランでは動画生成不可)。
幸い、ElevenCreativeのすべての有料プランで現在利用できます。
❓ よくある質問
Q. 写真が1枚あれば、すぐにアバターをつくれますか?
技術的には写真1枚でもつくれますし、写真なしでテキスト(プロンプト)で描写してつくることもできます。
ただ公式ガイドは同じ人物のいろいろな角度の写真を3〜5枚推奨しています。
1枚だけだと、動画ごとに顔が一貫しないことがあるからです。安定した結果がほしいなら、複数枚アップしましょう。
Q. 無料プランでも、話すアバター動画はつくれますか?
いいえ。アバターの動画生成は有料プランでのみ可能です(無料プランは動画生成が制限)。
ただしElevenCreativeのすべての有料プランで使え、コストは既存の「Image & Video」クレジットから差し引かれます。
選ぶモデル・解像度・動画の長さによって変わり、生成前の画面に予想クレジットが先に表示されるので、それを見て決められます。
Q. HeyGen・Synthesiaではなく、ElevenLabsアバターを使う理由はありますか?
一番大きな違いは「音声」です。
ElevenLabsはもともとTTS・ボイスクローンが本業なので、声の品質と多言語音声が強いです。
そこに顔(リップシンク)をくっつけて、オーディオを別のサービスに移さず、一か所で一気に動画をつくれるのが核心的な強みです。
音声品質が最優先だったり、多言語の動画をよくつくるなら魅力的です。
(逆に分単位の予算管理が重要ならSynthesia、既存動画の多言語翻訳が主目的ならHeyGenも良い選択です。)
Q. 動画ごとに顔が変わらないように、同じ人物でずっと使えますか?
はい、それこそがアバターの核心です。
一度つくったアバターは変わらない同一性を保つので、生成回数に関係なく、いくつもの動画に同じ顔で登場します。
「Styles(スタイル)」機能でアングル・衣装・背景だけを変えた派生もつくれるので、同一性は保ちながら多彩な演出が可能です。
🎁 おわりに
今日の要点をもう一度まとめます。
Avatars = 写真・テキストからつくったAI人物が、台本を口に合わせて話す動画になって出てくる新機能。
声と口合わせが一つの画面で一気に → オーディオを移す手間なし、シンクもより精密。
一度つくったアバターはずっと再利用、Stylesでアングル・衣装・背景を派生。
FlowsのAvatarノードで、UGC広告やショート動画をフック別・言語別に大量生産。
価格・長さ・自動選択モデルなど一部の数値は非公開 → 生成前に表示されるクレジットを確認しましょう。
「声の最強格」が、ついに「顔」まで手に入れました。
音声から動画まで、一つの流れでつながる時代が開けたわけです。
有料プランをお使いなら、今日さっそく写真を数枚アップして
自分だけのAI出演者を一人つくってみてください。
台本のひと行が「話す動画」に変わる感覚は、一度やってみれば1分で実感できますよ!
次の記事でも、もっと役立つ便利ワザを持ってお会いしましょう。
Sonethoでした。⚡