ElevenLabs Avatars: Cukup 1 Foto + Naskah, Langsung Jadi Video 'Orang AI yang Ngomong' ⚡

Q: Dengan plan gratis bisa bikin video avatar yang ngomong?

Nggak. Pembuatan video avatar cuma bisa di plan berbayar (plan gratis dibatasi untuk pembuatan video). Tapi bisa dipakai di semua plan berbayar ElevenCreative, dan biayanya dipotong dari kredit 'Image & Video' yang sudah ada. Berbeda tergantung model, resolusi, dan durasi video yang dipilih, dan perkiraan kredit ditampilkan duluan di layar sebelum generate , jadi lihat dulu baru putuskan.

Q: Ada alasan harus pakai ElevenLabs Avatars dibanding HeyGen·Synthesia?

Beda paling besarnya adalah 'suara' . ElevenLabs memang aslinya berkutat di TTS dan voice clone, jadi kuat di kualitas suara dan suara multibahasa. Lalu wajah (lip-sync) ditempelkan ke situ sehingga bisa bikin video sekaligus di satu tempat tanpa mindahin audio ke layanan lain , inilah keunggulan intinya. Kalau kualitas suara prioritas utama atau kamu sering bikin video multibahasa, ini menarik. (Sebaliknya, kalau manajemen budget per menit penting, Synthesia, dan kalau tujuan utamanya menerjemahkan video lama ke berbagai bahasa, HeyGen juga pilihan bagus.)

"Cuma upload satu foto, nulis naskah doang… eh orangnya beneran ngomong?"

Selama ini ElevenLabs dikenal sebagai perusahaan pembuat 'suara'.
Tapi kali ini mereka mulai bikin 'wajah' juga.
Ini soal Avatars, fitur yang bikin video orang AI yang bisa ngomong cukup dari naskah saja.

Halo, ini Sonetho. ⚡

Setelah hampir 3 tahun tiap hari ngulik ElevenLabs,
hari ini bawa fitur baru yang masih anget, resmi diumumkan pertengahan Juni 2026: Avatars.

Singkatnya begini.
Sekarang kamu bisa bikin 'video orang yang ngomong' secara utuh langsung di dalam ElevenLabs.
Upload foto buat bikin sosok AI, tulis naskah, pilih suara,
→ jadilah video sosok itu ngomong dengan gerak bibir yang pas banget.

Bayangkan layanan video avatar AI yang ngomong seperti HeyGen·Synthesia yang mungkin pernah kamu dengar.
Nah, ElevenLabs si 'jagoan suara' sekarang masuk ke ranah itu.
Hari ini kita bahas tuntas: ini apa, cara pakainya gimana, dan bedanya sama layanan yang sudah ada apa, semua dengan bahasa yang ramah buat pemula!

👉 Mulai Pakai ElevenLabs Avatars →

🤔 Kok perusahaan suara tiba-tiba bikin 'wajah'?

Kita mulai dari istilahnya dulu biar gampang.

💡 Kotak istilah biar langsung paham

Avatars = 'sosok AI milikmu sendiri' yang dibuat dari foto atau teks. Sekali bikin, bisa dipakai ulang terus di banyak video.
Talking-head = video 'wajah ngomong' yang menghadap kamera, format yang sering kamu lihat di YouTube dan iklan.
Lip-sync = teknologi yang menyelaraskan gerak bibir secara natural mengikuti suara.
ElevenCreative = ruang produksi konten milik ElevenLabs. Fitur avatar baru ini masuk ke menu 'Image & Video' di dalamnya.

Senjata utama ElevenLabs, mau diakui atau nggak, tetaplah 'suara'.
Di urusan TTS (teknologi yang mengubah teks jadi suara manusia) dan voice clone (kloning suara), mereka level kelas dunia.

Tapi para pembuat video sering mengalami ribet seperti ini.

Bikin suara di ElevenLabs,
lalu file audionya diupload lagi ke layanan lain (misalnya HeyGen),
baru di sana gerak bibirnya diselaraskan… handoff (proses mindah-mindah file ke sana-sini) ini bikin repot.

Avatars menyelesaikan semua langkah ini dalam satu tempat sekaligus.
Suara, wajah, sampai sinkron bibir → semuanya beres di dalam ElevenLabs sekali jalan.
Jadi bukan sekadar perusahaan suara bikin wajah, tapi gambaran besarnya adalah menyambung 'dari suara sampai video' tanpa terputus.

⚙️ Cara kerjanya: tahap 'export suara' lenyap seutuhnya

Ada satu kalimat kunci di pengumuman resmi Avatars ini.
Yaitu "Text to Speech sudah tertanam langsung di prompt island".

Kedengarannya rumit, tapi artinya sederhana.

💡 Bahasa gampangnya

Di tempat kamu mengetik naskah (prompt island = panel input tempat menulis perintah) fitur pembuat suara juga sudah menyatu.
Jadi suara dan video bibir tersinkron (lip-sync) dibuat 'sekaligus dalam sekali jalan'.
Sama sekali nggak perlu export file audio terpisah lalu memindahkannya ke tempat lain.

Satu hal lagi.
Keunggulan ElevenLabs adalah mereka punya 'bagian pembuat suara' itu sendiri.

Karena teknologi pembuat suara (voice model) dan teknologi sinkron bibir (lip-sync model) berjalan bareng di satu rumah yang sama,
menurut pengumuman resmi, sinkronisasinya (timing antara bibir dan suara) lebih pas dibanding cara mengambil audio dari luar lalu menyelaraskan bibir.
Pergeseran samar di mana bibir bilang "halo" tapi suaranya keluar "apa kabar" jadi berkurang.

📌 Catatan Editor: model lip-sync 'kamu' yang pilih ⚡
ElevenLabs mengumpulkan beberapa teknologi lip-sync terbaik di satu tempat,
dan di layar generate kamu bisa langsung memilih model lip-sync yang diinginkan (nilai default juga disediakan).
Intinya, tiap model beda kualitas, beda resolusi maksimal, dan beda 'kredit per detik'. Sudah kami rangkum di tabel hasil ukur tepat di bawah ini.

🎬 Tutorial: dari foto sampai video ngomong, langkah demi langkah

Alur pemakaian aslinya lebih sederhana dari yang dibayangkan.
Berdasarkan panduan resmi, rangkumannya begini.

Langkah 1: Bikin Avatar (sosok AI milikmu)
Di menu Image & Video ElevenCreative, klik 'New' di area Avatar.
Lalu bikin sosoknya lewat salah satu dari dua cara.

Upload foto: kalau upload 3-5 foto orang yang sama dari berbagai sudut, hasilnya lebih stabil.
(Kalau cuma upload 1 foto, hasilnya bisa naik-turun.)
Deskripsi teks: tanpa foto pun bisa, cukup deskripsikan "orang seperti ini" lewat prompt teks.

FYI, bukan cuma manusia, karakter dan hewan juga bisa dijadikan avatar. (Nggak harus manusia, OK)

Langkah 2: Beri nama dan tentukan suara default
Kasih nama avatarnya, kalau perlu tentukan suara default (default voice), lalu finalisasi sosoknya dengan 'Create Avatar'.
Tiap avatar sudah ditempel suara default, tapi bisa diganti kapan saja.

Langkah 3: Bikin video ngomong
Pilih avatar yang sudah dibuat, lalu klik 'Create Lip Sync'.
Lalu ① pilih gaya → ② pilih suara (suara dari library atau suara hasil kloningmu) → ③ masukkan naskah → ④ buat suaranya dengan 'Generate speech' dan dengarkan preview-nya.

Langkah 4: Generate
Kalau perlu, tambahkan sedikit visual prompt untuk menentukan nuansa video, lalu klik 'Generate', selesai.
Video dengan bibir tersinkron jadi lengkap bareng suaranya.

💡 Cek kredit dulu, baru klik

Video avatar mengikuti struktur kredit 'Image & Video' yang sudah ada.
Biayanya berbeda tergantung model lip-sync yang dipilih, resolusi output, dan durasi video.
Untungnya, perkiraan kredit ditampilkan duluan di layar sebelum kamu klik tombol generate. Lihat dulu baru klik!
(Resolusi mendukung 480p·720p·1080p, tapi menurut beberapa acuan, 'durasi video' lebih berpengaruh ke kredit dibanding resolusi atau rasio layar.)

Makanya kami langsung menyalin kredit per detik tiap model lip-sync dari layar pemilihan model asli pada Juni 2026. (Makin kecil angkanya, makin murah)

Model lip-sync	Kredit per detik	Keunggulan (deskripsi resmi)
Veed Lipsync	41	Lip-sync video yang cepat dan murah
Sync Lipsync 2 Pro	661	Kualitas studio untuk konten live-action, animasi, dan AI
Creatify Aurora	848	Kualitas terbaik dari gambar, lip-sync terpandu
Sync 3	1,053	Visual intelligence, kualitas profesional
HeyGen Avatar 4 (baru)	1,212	Gerakan ekspresif, hingga 1080p
Veed Fabric	1,212	Realistis untuk gambar apa pun, hingga 720p
OmniHuman 1.5	1,267	Lip-sync realistis, mendukung wajah non-manusia

⚠️ Jebakan 'per detik', biayanya naik proporsional dengan durasi

Karena dihitung per detik, makin panjang videonya, biayanya makin melonjak.
Contoh) video 30 detik dengan Sync 3 (1,053/detik) → sekitar 31,600 kredit. Kalau 1 menit, sekitar 63,000 kredit.
Dengan acuan plan Creator (sekitar 120 ribu kredit per bulan), itu cuma cukup buat 3-4 video durasi 30 detik. Jujur, nggak terlalu longgar.
Sebaliknya, model murah seperti Veed Lipsync (41/detik) cuma sekitar 1,230 kredit untuk 30 detik, bisa puluhan kali lebih banyak dengan kredit yang sama.
Ini trade-off kualitas vs biaya.
Selain itu, kredit pembuatan avatar (gambar) terpisah. Kredit per detik di atas adalah biaya bagian 'video ngomong (lip-sync)'.

※ Kredit per detik adalah nilai hasil ukur dari layar pemilihan model pada Juni 2026. Kebijakan model dan harga sering berubah, jadi pastikan cek perkiraan kredit di layar tepat sebelum generate.

👉 Coba Bikin Avatar Sendiri →

🪪 Sekali bikin, dipakai terus: identitas yang konsisten & variasi 'Styles'

Keunggulan sejati avatar adalah 'pemakaian ulang'.

Avatar yang sekali kamu buat punya 'identitas yang konsisten (persistent identity)'.
Gampangnya, sosok yang sekali dibuat itu bisa terus tampil dengan wajah yang sama persis di banyak video.
Nggak ada lagi kejadian wajah orang yang berubah samar tiap video.

Ditambah lagi ada fitur 'Styles'.
Dengan menjaga identitas inti orang yang sama tetap utuh, kamu bisa bikin variasi yang mengubah hal-hal berikut.

Sudut kamera (depan / samping, dll.)
Pakaian (formal / kasual, dll.)
Latar dan pencahayaan

Misalnya, kamu bikin satu 'pembawa acara brand kita',
lalu pakai dia sebagai orang yang sama untuk versi formal latar kantor, versi kasual outdoor, dan versi close-up.
Avatar dan style ini tetap terjaga terus tanpa peduli berapa kali digenerate, jadi bisa dipakai ulang di banyak proyek.

📌 Kenapa ini penting ⚡
Mau itu channel YouTube atau iklan, 'wajah yang sama' harus muncul konsisten supaya penonton ingat brand-nya.
Kalau tiap kali syuting ulang atau pakai sosok AI yang beda-beda, konsistensinya ambruk.
Avatar memberimu 'talent' yang bisa kamu 'bikin sekali dan pakai seumur hidup'.

🔁 'Produksi massal' dengan Flows: bikin iklan UGC sekali jalan

Dari sini agak lebih advanced, tapi buat marketer dan pembuat UGC ini benar-benar harta karun.

💡 Cukup dua istilah ini

Flows = fitur otomasi yang menjalankan tugas-tugas berurutan seperti ban berjalan otomatis.
Iklan UGC = iklan bergaya review yang 'seolah-olah direkam langsung oleh pengguna'. Format yang paling ngena di Instagram, TikTok, dan Shorts belakangan ini.

Kali ini ditambahkan 'Avatar node (blok avatar)' baru ke Flows.
Dengan menyisipkan ini, pembuatan video avatar bisa terhubung ke pipeline otomatis.

Kalau alur contoh resminya disalin apa adanya, begini.

① Masukkan product brief (penjelasan singkat produk)
② AI membuat naskah
③ Membuat voiceover (suara narasi)
④ Membuat video avatar mengucapkan naskah itu

Lalu semua ini dijalankan sekaligus (batch) per produk, per bahasa, per hook.
'Hook' di sini maksudnya kalimat pembuka yang menangkap 3 detik pertama di awal video.

Misalnya, cukup ganti hook-nya jadi 5 versi ("Rugi kalau nggak tahu ini", "Lihat 3 detik aja", dll.), kamu bisa bikin 5 variasi iklan sekali jalan.
Pas banget buat pekerjaan menguji 'pembuka mana yang paling ngena' dengan menjalankan beberapa versi, seperti iklan Shorts dan Reels.
Karena nggak perlu syuting ulang tiap kali.

⚖️ Apa bedanya sama HeyGen · Synthesia? (perbandingan jujur)

"Kan sudah ada HeyGen·Synthesia, kenapa harus ElevenLabs?"
Pertanyaan yang wajar. Kita bahas intinya saja. (Harga mengacu pada materi resmi dan perbandingan, bisa berbeda tergantung promosi dan siklus pembayaran.)

Layanan	Keunggulan / cara bayar	Cocok saat begini
ElevenLabs Avatars	Suara adalah bidang utamanya → suara+wajah di satu tempat. Berbasis kredit	Kualitas suara prioritas utama, suara multibahasa
Synthesia	Tagihan per 'menit' jadi hitung budget gampang. Realisme avatarnya dapat penilaian bagus	Pelatihan perusahaan, video internal
HeyGen	Berbasis kredit. Kuat di terjemahan multibahasa video yang sudah ada	Marketing, terjemahan konten luar negeri

Kalau pembeda utamanya dirangkum dalam satu kalimat, begini.

ElevenLabs itu 'integrasi yang mendahulukan suara'.
Perusahaan yang suaranya memang kelas dunia, menempelkan wajah (lip-sync) ke suara itu sehingga bisa digenerate sekaligus di satu layar.
Keunggulannya, kamu nggak perlu mindah-mindah audio ke sana-sini, dan sinkron suara-bibirnya lebih presisi.

Sedikit gambaran soal harga (per Juni 2026).

HeyGen: per kredit. Berdasarkan fitur avatar andalannya (Avatar IV), sekitar $1 per menit (plan Creator).
Synthesia: langganan per menit. Konversi tagihan tahunan sekitar $1.8~2.1 per menit.
ElevenLabs Avatars: tergantung model lip-sync yang dipilih, rentangnya lebar dari sekitar $0.45 (murah) sampai $13.8 per menit (premium) (lihat tabel kredit per detik di atas).

💰 Jadi akhirnya mana yang lebih murah? Sudah dihitung tuntas di artikel kedua
Jujur, kalau bikin banyak dengan resolusi tinggi, platform khusus (HeyGen·Synthesia) bisa lebih murah per menit,
tapi kalau sesekali, sedikit, dan butuh workflow terintegrasi, ElevenLabs lebih untung.
Kami hitung tuntas titik impas yang ditentukan oleh "berapa menit yang kamu bikin per bulan" lewat tabel biaya riil per menit.
→ [Duel Biaya Avatar] Langganan langsung vs ElevenLabs, lihat siapa yang benar-benar lebih murah →

🚨 Jujur, ada hal-hal yang masih belum pasti
Durasi video maksimal yang bisa dibuat sekali jalan per model dan kredit pembuatan avatar (gambar) itu sendiri berbeda-beda tergantung model dan setelan, jadi belum diumumkan dengan angka yang pasti.
(Resolusi maksimal juga beda tiap model. Seperti tabel di atas, ada model yang sampai 720p dan ada yang sampai 1080p, bercampur.)
Sebagai gantinya, biaya akuratnya ditampilkan sebagai perkiraan kredit di layar tepat sebelum generate, jadi tinggal lihat itu baru klik.
Selain itu, saat peluncuran API (integrasi eksternal) belum tersedia dan akan disediakan nanti.

🙋 Jadi, ini cocok buat siapa?

Menurut kami, ini sangat ampuh buat orang-orang seperti ini.

Kreator Shorts·Reels: mengelola channel dengan 'talent AI' yang konsisten, tanpa beban menampilkan wajah sendiri.
Iklan UGC·performance marketer: produksi massal variasi iklan cukup dengan mengganti hook, A/B test jadi gampang.
Pembuat konten kursus·edukasi: bikin serial kelas dengan 'pengajar yang sama', diperluas per mata pelajaran dan per bahasa.
Pengelola brand·media sosial: rajin produksi konten sosial tanpa syuting tiap kali.
Yang butuh video penjelasan multibahasa: bikin video terlokalisasi dengan menggabungkan suara multibahasa ElevenLabs.

Sebaliknya, buat kamu yang mau bikin video benar-benar gratis, ini masih kurang menyenangkan.
Avatar (pembuatan video) cuma bisa dipakai di plan berbayar (plan gratis tidak bisa membuat video).
Untungnya, saat ini bisa digunakan di semua plan berbayar ElevenCreative.

❓ Pertanyaan yang sering ditanyakan

Q. Cukup punya satu foto, langsung bisa bikin avatar?
Secara teknis bisa dengan 1 foto saja, bahkan tanpa foto pun bisa dengan mendeskripsikan lewat teks (prompt).
Tapi panduan resmi menyarankan 3-5 foto orang yang sama dari berbagai sudut.
Kalau cuma pakai 1 foto, wajahnya bisa nggak konsisten antar video. Kalau mau hasil yang stabil, upload beberapa foto.

Q. Dengan plan gratis bisa bikin video avatar yang ngomong?
Nggak. Pembuatan video avatar cuma bisa di plan berbayar (plan gratis dibatasi untuk pembuatan video).
Tapi bisa dipakai di semua plan berbayar ElevenCreative, dan biayanya dipotong dari kredit 'Image & Video' yang sudah ada.
Berbeda tergantung model, resolusi, dan durasi video yang dipilih, dan perkiraan kredit ditampilkan duluan di layar sebelum generate, jadi lihat dulu baru putuskan.

Q. Ada alasan harus pakai ElevenLabs Avatars dibanding HeyGen·Synthesia?
Beda paling besarnya adalah 'suara'.
ElevenLabs memang aslinya berkutat di TTS dan voice clone, jadi kuat di kualitas suara dan suara multibahasa.
Lalu wajah (lip-sync) ditempelkan ke situ sehingga bisa bikin video sekaligus di satu tempat tanpa mindahin audio ke layanan lain, inilah keunggulan intinya.
Kalau kualitas suara prioritas utama atau kamu sering bikin video multibahasa, ini menarik.
(Sebaliknya, kalau manajemen budget per menit penting, Synthesia, dan kalau tujuan utamanya menerjemahkan video lama ke berbagai bahasa, HeyGen juga pilihan bagus.)

Q. Bisa pakai orang yang sama terus supaya wajahnya nggak berubah tiap video?
Iya, itulah inti dari avatar.
Avatar yang sekali dibuat menjaga identitas yang konsisten, jadi tampil dengan wajah yang sama di banyak video, nggak peduli berapa kali digenerate.
Lewat fitur 'Styles', kamu juga bisa bikin variasi yang cuma mengubah sudut, pakaian, dan latar, sehingga identitasnya terjaga sambil tetap bisa beragam penyajian.

🎁 Penutup

Kita rangkum lagi intinya hari ini.

Avatars = fitur baru di mana sosok AI buatan foto·teks keluar jadi video yang ngomong dengan bibir tersinkron naskah.
Suara dan sinkron bibir dibuat sekaligus di satu layar → nggak repot mindahin audio, sinkronnya lebih presisi.
Avatar yang sekali dibuat dipakai ulang terus, dengan Styles variasi sudut·pakaian·latar.
Lewat Avatar node di Flows, produksi massal iklan UGC·Shorts per hook dan per bahasa.
Sebagian angka seperti harga, durasi, dan model auto-select belum diumumkan → cek kredit yang ditampilkan sebelum generate.

'Jagoan suara' kini sudah menggenggam 'wajah' juga.
Era di mana suara sampai video tersambung dalam satu alur sudah terbuka.

Kalau kamu sedang pakai plan berbayar, hari ini juga upload beberapa foto
dan bikinlah satu 'talent AI' milikmu sendiri.
Naskah satu baris berubah jadi 'video yang ngomong', sekali coba kamu langsung terasa cuma butuh 1 menit!

👉 Mulai Pakai ElevenLabs Avatars →

Sampai jumpa lagi di artikel berikutnya dengan tips bermanfaat lainnya.
Ini tadi Sonetho. ⚡