Panduan Lengkap Prompt ElevenLabs: Trik Suara Emosional, Efek, dan Intonasi v3

Q: Saya memasukkan tag [excited], tapi AI malah membacanya sebagai "ek-sai-ted". Kenapa?

Kemungkinan besar Anda menggunakan model v2 (Multilingual v2) . Audio tag hanya dikonversi menjadi akting di Eleven v3 . Ubah model ke v3 dan coba lagi.

Q: Angka atau singkatan sering dibaca aneh, apa solusi tercepatnya?

Untuk naskah sekali pakai, penulisan fonetik (API → A-pi-ai) adalah cara tercepat. Jika kata tersebut sering muncul, daftar di kamus pelafalan . Untuk masalah kata yang menyatu, tanda hubung (dua-tujuh) adalah solusinya.

Q: Untuk naskah panjang, nada suara sering berubah di tengah jalan. Apakah bisa diatasi dengan prompt?

v3 memiliki karakteristik mengatur ulang suara di setiap ganti baris . Kurangi ganti baris dan masukkan naskah dalam satu blok besar. Jika masih berubah, gunakan v2 yang memiliki konsistensi suara lebih kuat.

"Kenapa naskah yang sama, rasanya beda antara hasil generate kemarin dengan hari ini?"
Ini adalah masalah yang pasti pernah dialami semua pengguna ElevenLabs.
Sebenarnya, 80% perbedaannya terletak pada 'bagaimana cara Anda menulis prompt (input teks)'.

Halo, Sonetho di sini! ⚡

Di ElevenLabs, yang dimaksud dengan 'prompt' bukanlah sesuatu yang rumit, melainkan teks itu sendiri yang Anda masukkan untuk dikonversi menjadi suara.
Namun, kunci utamanya adalah teks ini bukanlah sekadar 'kumpulan huruf biasa'.

Kalimat seperti "Ini luar biasa sekali,"
jika dimasukkan begitu saja, akan dibaca dengan nada datar,
tapi dengan menambahkan satu tag emosi, AI akan langsung berakting dengan nada terkejut yang nyata.
Satu angka, satu titik, atau satu tanda hubung pun bisa mengubah hasilnya secara drastis.

Setelah menggunakan ElevenLabs setiap hari selama hampir 3 tahun,
hari ini kami akan mengupas tuntas 'Cara Menulis Prompt'.
Mulai dari tag audio v3, koreksi pelafalan, cara mengatur jeda, hingga template siap pakai yang bisa langsung Anda copy-paste, jadi pastikan membaca sampai habis!

📌 Pertama: Cara kerja prompt berbeda tergantung 'modelnya'

Sebelum kita masuk ke inti, ada satu hal penting.
'Audio tag' yang akan kita bahas mulai sekarang—yaitu perintah dalam kurung siku seperti [excited], [laughs]—hanya berfungsi pada model Eleven v3.

Apa yang terjadi jika Anda memasukkan tag ini ke v2 (Multilingual v2)?
AI tidak akan mengubah tag tersebut menjadi 'akting', melainkan tidak menginterpretasikannya sebagai perintah dan menganggapnya sebagai teks biasa (tag akan dibaca sebagai kata atau diabaikan). 😅
(Eksperimen perbandingan v2 vs v3 dengan kalimat yang sama bisa Anda dengarkan lewat 9 trek di Perbandingan Bahasa Indonesia Eleven v3 vs v2.)

Ringkasan Satu Baris
• Ingin menggunakan tag emosi/efek suara → Gunakan v3
• Membutuhkan konten panjang + konsistensi suara → Gunakan v2 (menghindari kelemahan v3 yang nadanya bisa berubah tiap paragraf)
• Koreksi pelafalan/jeda (tanda hubung) → Berlaku untuk keduanya

Jika Anda ingin mendalami kelebihan dan kekurangan tiap model, artikel Tips v2 vs v3 dari Pengguna Ahli sangat direkomendasikan.

🎭 1. Panduan Lengkap Audio Tag v3 (Emosi · Efek Suara)

Audio tag adalah perintah dalam kurung siku [ ] yang memberi instruksi dalam bahasa Inggris tentang 'bagaimana cara berbicara'.
Secara resmi, kami hanya menginformasikan bahwa 'tag memengaruhi penyampaian (delivery) teks setelahnya',
namun berdasarkan pengalaman, jika ditempatkan di depan kalimat, tag tersebut akan menentukan nada seluruh kalimat,
dan jika disisipkan di tengah kalimat, tag tersebut akan memberikan efek (tertawa, menghela napas, dll) tepat di posisi tersebut.
(Ini bukan aturan mutlak, tapi cara ini biasanya memberikan hasil paling natural.)

Ingat dua poin penting ini:

Tag ditulis dalam 'bahasa Inggris', bukan bahasa Indonesia. (Tag [whispers] jauh lebih efektif daripada [bisikan])
Tag tidak akan terbaca sebagai suara. Ini hanya instruksi akting, AI tidak akan membaca kata "wisper".
(Ini hanya berlaku di v3.)

① Tag Nada Emosi (Paling efektif diletakkan di depan kalimat)

Tag	Arti / Efek	Penggunaan
[excited]	Ceria · Bersemangat	Promosi event, pengenalan produk baru
[sad]	Sedih · Melankolis	Narasi emosional, cerita sedih
[angry]	Marah · Emosional	Dialog karakter, adegan dramatis
[whispers]	Berbisik · Kecil	Rahasia, gaya ASMR, ketegangan
[sarcastic]	Menyindir · Sinis	Konten komedi, karakter unik
[curious]	Penasaran	Narasi berbentuk pertanyaan
[nervous]	Gugup · Gemetar	Deskripsi situasi mencekam
[calm]	Tenang · Stabil	Meditasi, panduan instruksi

Contoh input (v3):

[excited] Semuanya, akhirnya produk baru kita resmi dirilis!
[whispers] Sebenarnya, kami menyiapkan diskon spesial hanya untuk hari ini.

👉 Kalimat pertama bernada tinggi dan antusias, kalimat kedua tiba-tiba merendahkan suara seolah berbisik.
Kemampuan untuk mengubah nada di dalam satu naskah inilah daya tarik utama dari tag v3.

② Tag Efek Suara (Non-verbal) (Paling efektif disisipkan di tengah kalimat)

Ini bukan soal 'nada', melainkan suara nyata.
Memberikan efek seperti tertawa, menghela napas, atau berdehem (ekspresi non-verbal) tepat pada posisinya.

Tag	Suara yang muncul	Posisi terbaik
[laughs]	Tertawa	Tengah / Akhir
[chuckles]	Terkekeh ringan	Tengah / Akhir
[sighs]	Menghela napas	Depan / Tengah
[gasps]	Terengah-engah kaget	Depan
[clears throat]	Berdehem	Depan
[exhales]	Mengembuskan napas	Tengah / Akhir

Contoh input (v3):

Ah, saya lupa lagi. [sighs] Harus mulai dari awal sepertinya.
Jadi, apa yang saya lakukan kemarin adalah… [laughs] saya melakukan kesalahan konyol.

📌 Tips Editor: Jangan serakah dengan tag! ⚡
Anda bisa mengombinasikan beberapa tag.
Namun, menumpuk terlalu banyak tag dalam satu kalimat sering kali membuat nada tidak stabil (kecepatan tidak konsisten, noise) atau bahkan diabaikan.
Kesimpulan dari tim kami: cukup 1 tag per kalimat. Semakin sedikit, semakin natural.

🔤 2. Koreksi Pelafalan: Saat istilah, bahasa Inggris, atau angka salah baca

Tak peduli seberapa bagus prompt Anda, jika AI membaca "Siti" menjadi "S-i-t-i" secara kaku, semuanya akan terasa aneh. 😭
Masalah pelafalan berada di ranah yang berbeda dari nada dan emosi, sehingga solusinya pun berbeda.

Ada tiga cara utama untuk mengatasi pelafalan:

① Penulisan Fonetik (Paling mudah, solusi instan)

Cukup tuliskan kata tersebut dalam ejaan yang diucapkan di dalam prompt.

ChatGPT → Chet-ji-pi-ti
API → A-pi-ai
2026 → dua ribu dua puluh enam (jika angka sering meleset)

Ini adalah cara tercepat untuk naskah sekali pakai.

② Memisahkan pelafalan dengan Tanda Hubung

Jika dua kata bergabung dan terdengar aneh (misal: 'kereta' dibaca 'keret-a'), menambahkan tanda hubung di antaranya akan membuat pelafalannya jelas.

Siti-Nurhaliza / Chet-ji-pi-ti / A-pi-ai

Tanda hubung berfungsi untuk memisahkan pelafalan + memberikan jeda napas yang sangat pendek. Detailnya akan dibahas di bagian 'mengatur jeda'.

③ Kamus Koreksi Pelafalan (Wajib jika sering digunakan)

Jika nama unik sering muncul di setiap video, tidak efisien jika harus menulis fonetik secara manual setiap saat.
Anda bisa mendaftarkannya di 'Pronunciation Dictionary' satu kali saja,
maka AI akan otomatis mengubahnya meskipun Anda memasukkan teks aslinya.

🚨 Kesalahan paling umum (Hemat kredit Anda!)
Di kolom Alias pada kamus pelafalan, Anda bisa menggunakan ejaan yang diucapkan. Untuk kejelasan maksimal, terutama pada istilah bahasa Inggris, menggunakan ejaan Inggris yang benar (misal: "Eleven Labs") akan lebih stabil daripada ejaan fonetik yang dibuat-buat.

※ Hal yang perlu diingat: Jangan gunakan tanda hubung di kolom Alias kamus pelafalan. Cukup gunakan kata yang dipisahkan spasi (misal: "Eleven Labs").
Tanda hubung (-) adalah alat untuk naskah utama (pengaturan jeda/pemisahan pelafalan, lihat poin 3).

Cara membuat kamus pelafalan beserta panduan lengkapnya sudah kami rangkum di Panduan Sempurna Koreksi Pelafalan ElevenLabs.

Sebagai informasi, v3 menangani pola angka/simbol yang baru (misal: "$22" → "dua puluh dua dolar") dengan lebih fleksibel dibandingkan v2.
Namun, ada kelemahan di mana AI bisa berganti-ganti antara pengucapan bahasa Inggris Amerika dan Inggris British, jadi jika konsistensi pelafalan sangat penting, gunakan kamus pelafalan untuk menguncinya.

⏸️ 3. Jeda dan Pengaturan Napas: Sihir tanda baca dan tanda hubung

Alat paling kuat dalam prompt adalah tanda baca.
AI menentukan di mana harus berhenti, berapa lama jeda, dan bagaimana mengakhiri nada berdasarkan tanda baca yang Anda masukkan.

① Memahami durasi jeda berdasarkan tanda baca

Tanda Baca	Efek	Durasi Jeda
Koma ,	Berhenti sebentar	Pendek
Titik .	Akhir kalimat, nada turun	Sedang
Ganti baris (Enter)	Pisah paragraf, reset napas	Panjang
Tanda tanya ?	Nada naik di akhir	Sedang
Tanda seru !	Menekankan tenaga	Sedang
Elipsis …	Kesan ragu · Menunggu	Panjang (lembut)
Tanda hubung -	Jeda sangat singkat	Sangat pendek

② Tanda hubung (-) — Trik rahasia yang paling kami cintai

Jika menggunakan koma terasa terlalu lama dan canggung, tapi tidak pakai koma membuat pelafalan berantakan.
'Celah ambigu' tersebut bisa diatasi dengan tanda hubung.

Pemisahan pelafalan: dua-tujuh → mencegah penyatuan kata.
Napas halus: Jadi, begini- memberikan jeda alami untuk kalimat berikutnya.
Membangun ketegangan: Itu-bukan-sesuatu memberikan penekanan antar kata.

Inti dari tanda hubung adalah "ganti koma dengan tanda hubung" jika ingin jeda lebih singkat.

📌 Catatan untuk pengguna v3: Ganti baris adalah pedang bermata dua
v3 memiliki karakteristik di mana suara sedikit diatur ulang di setiap ganti baris (paragraf).
Jadi, jika Anda ingin menjaga nada tetap konsisten dalam konten panjang, minimalisir ganti baris dan buat dalam satu blok.
Sebaliknya, jika ingin mengubah suasana di tiap adegan, manfaatkan ganti baris secara sengaja.

③ Jeda presisi — Metodenya berbeda antar model ⚡

Saat Anda membutuhkan jeda akurat seperti "berhenti tepat 1 detik", metodenya akan berbeda tergantung model yang digunakan.

Situasi	Cara menambah jeda	Catatan
Model v3	[pause] · [short pause] · [long pause]	Tag audio khusus v3
v2 · Turbo · Flash	<break time="1.5s" />	Menentukan detik, tidak bekerja di v3
Studio (Editor web)	Klik tombol 'Insert pause' → atur durasi	Paling praktis

🚨 Kesalahan paling umum: Menggunakan tag <break> di naskah v3
v3 tidak mendukung tag SSML break dan akan mengabaikannya. Untuk jeda di v3, gunakan tag [pause] atau tanda baca elipsis (…)/tanda hubung (—).
Sebaliknya, v2 tidak mendukung [pause], jadi gunakan <break>. Pastikan model yang Anda gunakan terlebih dahulu!

Sebagai informasi, di Studio (Editor web), Anda tidak perlu mengetik tag manual. Cukup klik tombol 'Insert pause', tentukan durasinya, dan selesai.

※ Apapun metodenya, jangan berlebihan. Terlalu banyak jeda bisa membuat hasil audio tidak stabil.

📋 4. Template Prompt Siap Pakai (Copy-Paste)

Teori sudah cukup. Berikut adalah template yang bisa langsung Anda gunakan.
Tag kurung siku berlaku untuk v3, sedangkan tanda baca biasa, tanda hubung, dan fonetik berlaku untuk semua model.

① Narasi Konten Informatif YouTube

[curious] Semuanya, kalian sudah tahu ini belum?
Apa yang ingin saya bagikan hari ini-sangat sederhana, tapi hasilnya pasti terasa.
[excited] Jadi, mari langsung kita mulai!

Poin: Pembukaan dengan [curious] untuk rasa penasaran, masuk ke inti dengan [excited] untuk menaikkan tensi. Tanda hubung untuk jeda pernapasan.
▶ Rekomendasi model: Eleven v3

② Dialog Karakter (Akting Emosional)

[whispers] Kamu tidak boleh bilang ke siapa pun…
[nervous] Sebenarnya, aku ada di sana hari itu.
[sighs] Sekarang menyesal pun tak ada gunanya.

Poin: Kalimat pendek + tag emosi kuat = keunggulan v3. Cocok untuk dubbing karakter atau webtoon.
▶ Rekomendasi model: Eleven v3

③ Iklan Produk (15 detik)

[excited] Hanya satu hari! Harga ini hanya berlaku hari ini.
Ragu-hanya akan membuat pengiriman semakin lama.
[calm] Segera buat keputusan cerdas sekarang juga.

Poin: Penyesuaian tempo dari tensi tinggi ke penutup yang tenang. Gunakan penulisan fonetik untuk istilah asing agar tidak salah baca.
▶ Rekomendasi model: Eleven v3

④ Panduan / Instruksi Suara Tenang

Halo, pelanggan yang terhormat.
Mulai sekarang, saya akan memandu Anda dalam proses instalasi langkah demi langkah.
Pertama, tekan tombol daya-selama tiga detik.

Poin: Tanpa tag, cukup koma agar terdengar jelas. Gunakan v2 untuk panduan panjang yang membutuhkan konsistensi.
▶ Rekomendasi model: Eleven Multilingual v2

✅ Checklist Penulisan Prompt

Jika menggunakan tag emosi/efek suara → Apakah model sudah diatur ke v3?
Apakah tag ditulis dalam bahasa Inggris, dan rata-rata 1 tag per kalimat?
Apakah istilah bahasa Inggris/angka/nama unik sudah ditulis dengan fonetik atau tanda hubung agar pelafalannya benar?
Apakah istilah yang berulang sudah didaftarkan di kamus pelafalan (Alias menggunakan ejaan asli)?
Jika suara tidak stabil di konten panjang → Apakah sudah mengurangi ganti baris atau mencoba v2?
Apakah sudah mendengarkan pratinjau? (Anda tidak bisa menangkap kesalahan hanya dengan melihat teks!)

❓ FAQ — Pertanyaan yang Sering Diajukan

Q. Saya memasukkan tag [excited], tapi AI malah membacanya sebagai "ek-sai-ted". Kenapa?
Kemungkinan besar Anda menggunakan model v2 (Multilingual v2).
Audio tag hanya dikonversi menjadi akting di Eleven v3. Ubah model ke v3 dan coba lagi.

Q. Apakah tag harus dalam bahasa Inggris? Apakah [bisikan] bisa?
Tag bahasa Indonesia terkadang bisa terbaca, tapi stabilitasnya rendah.
Karena tag v3 dilatih berbasis bahasa Inggris, kami sangat menyarankan menggunakan [whispers], [laughs], dll. Silakan salin dari tabel di atas.

Q. Angka atau singkatan sering dibaca aneh, apa solusi tercepatnya?
Untuk naskah sekali pakai, penulisan fonetik (API → A-pi-ai) adalah cara tercepat.
Jika kata tersebut sering muncul, daftar di kamus pelafalan. Untuk masalah kata yang menyatu, tanda hubung (dua-tujuh) adalah solusinya.

Q. Untuk naskah panjang, nada suara sering berubah di tengah jalan. Apakah bisa diatasi dengan prompt?
v3 memiliki karakteristik mengatur ulang suara di setiap ganti baris. Kurangi ganti baris dan masukkan naskah dalam satu blok besar. Jika masih berubah, gunakan v2 yang memiliki konsistensi suara lebih kuat.

Q. Apakah menumpuk banyak tag emosi akan membuat hasil lebih bagus?
Anda bisa mengombinasikannya, namun menumpuk terlalu banyak akan membuat nada tidak stabil. Gunakan 1 tag per kalimat sebagai standar agar hasil tetap natural.

🎁 Penutup

Mari kita rangkum poin penting hari ini:

Tag emosi/efek suara ([excited], [laughs]) adalah khusus v3, gunakan bahasa Inggris, dan maksimal 1 per kalimat.
Pelafalan diatasi dengan urutan: fonetik → tanda hubung → kamus pelafalan.
Jeda diatur dengan tanda baca, napas halus dengan tanda hubung, dan jeda presisi sesuai model (v3=[pause], v2=<break>).
Konten panjang yang nadanya tidak konsisten? Kurangi ganti baris atau gunakan v2.

ElevenLabs pada akhirnya adalah pertarungan tentang 'bagaimana Anda melatihnya'.
Kalimat yang sama bisa menjadi pembacaan yang membosankan atau akting sekelas pengisi suara profesional, tergantung pada prompt Anda.

Cobalah salin salah satu template di atas ke kolom input ElevenLabs dan dengarkan pratinjaunya.
Anda akan merasakan perbedaannya dalam semenit. Simpan template dan checklist ini agar bisa digunakan saat menulis naskah berikutnya.
Teks Anda akan berubah menjadi suara yang jauh lebih hidup!

Sampai jumpa di artikel berikutnya dengan tips yang lebih bermanfaat.
Salam, Sonetho ⚡