"क्यों एक ही स्क्रिप्ट का उच्चारण कल और आज अलग-अलग सुनाई देता है?"
Elevenlabs का उपयोग करते समय यह एक ऐसी समस्या है जिसका सामना हर कोई कभी न कभी करता है。
वास्तव में, उस अंतर का 80% हिस्सा इस बात पर निर्भर करता है कि आपने 'प्रॉम्प्ट (टेक्स्ट इनपुट)' कैसे लिखा है।
नमस्ते, यह Sonetho है ⚡
Elevenlabs में, 'प्रॉम्प्ट' का मतलब कुछ जटिल नहीं, बल्कि वह टेक्स्ट है जिसे आप वॉइस में बदलने के लिए इनपुट करते हैं।
लेकिन मुख्य बात यह है कि यह टेक्स्ट केवल 'शब्दों का समूह' नहीं है।
यहाँ तक कि "यह वाकई अद्भुत है" जैसा एक वाक्य भी,
अगर आप इसे सीधे इनपुट करेंगे, तो यह सामान्य रूप से पढ़ा जाएगा,
लेकिन अगर आप इसके आगे एक इमोशन टैग जोड़ देंगे, तो यह एक वास्तविक आश्चर्यचकित आवाज़ में अभिनय करेगा।
एक अंक, एक पूर्ण विराम या एक हाइफ़न भी परिणाम को पूरी तरह से बदल सकता है।
पिछले 3 वर्षों से हर दिन Elevenlabs को परखते हुए, हम
आज 'प्रॉम्प्ट लिखने के तरीके' पर गहराई से चर्चा करेगी।
हमने इसमें v3 ऑडियो टैग, उच्चारण सुधार, पॉज़ (विराम) और तुरंत उपयोग करने योग्य प्रैक्टिकल टेम्प्लेट शामिल किए हैं, इसलिए अंत तक पढ़ना न भूलें!
📌 सबसे पहले: प्रॉम्प्ट का काम करने का तरीका 'मॉडल' के अनुसार अलग होता है
मुख्य विषय पर आने से पहले, एक बात स्पष्ट कर लेते हैं。
हम आगे जिन 'ऑडियो टैग्स' के बारे में बताएंगे — यानी [excited], [laughs] जैसे ब्रैकेट कमांड — वे केवल Eleven v3 मॉडल में काम करते हैं।
अगर आप इन टैग्स को v2 (Multilingual v2) में डालेंगे तो क्या होगा?
यह टैग को 'अभिनय' में नहीं बदलेगा, बल्कि टैग को 'अभिनय' के रूप में समझने में विफल रहेगा और इसे सामान्य टेक्स्ट की तरह पढ़ेगा (टैग को शब्दों की तरह पढ़ा जाएगा या नजरअंदाज कर दिया जाएगा)। 😅
(हमारे द्वारा v2 और v3 की तुलना करने वाला प्रयोग आप Eleven v3 बनाम v2 तुलना में 9 अलग-अलग ट्रैक के साथ सुन सकते हैं।)
संक्षेप में
• यदि आप इमोशन/साउंड इफेक्ट्स टैग का उपयोग करना चाहते हैं → v3 (2026 में आधिकारिक लॉन्च)
• यदि लंबी सामग्री + वॉइस निरंतरता महत्वपूर्ण है → v2 (v3 की उस कमजोरी से बचने के लिए जहाँ टोन बदल सकता है)
• उच्चारण सुधार और पॉज़ (हाइफ़न) → v2 और v3 दोनों में लागू होते हैं
मॉडल की खूबियों और खामियों को और गहराई से समझने के लिए, वास्तविक उपयोगकर्ताओं के v2 बनाम v3 टिप्स पोस्ट देखना आपके लिए बहुत उपयोगी होगा।
🎭 1. Tổng quan về thẻ âm thanh v3 (Cảm xúc & Hiệu ứng)
Thẻ âm thanh là các lệnh nằm trong dấu ngoặc vuông [ ] dùng để hướng dẫn AI "cách nói" bằng tiếng Anh.
Mặc dù hướng dẫn chính thức chỉ đề cập rằng 'thẻ ảnh hưởng đến cách truyền tải (delivery) của đoạn văn bản đi kèm',
nhưng thực tế sử dụng cho thấy nếu đặt thẻ ở đầu câu, nó thường định hình tông giọng cho toàn bộ câu đó,
còn đặt ở giữa câu, nó sẽ tạo ra các hiệu ứng âm thanh (cười, thở dài, v.v.) tại vị trí đó.
(Đây không phải là quy tắc cứng nhắc, nhưng cách dùng này thường mang lại kết quả tự nhiên nhất.)
Hãy ghi nhớ hai điểm quan trọng sau:
Thẻ phải được viết bằng 'tiếng Anh'. (Ví dụ: [whispers] sẽ hiệu quả hơn nhiều so với việc dùng từ ngữ tương đương bằng tiếng mẹ đẻ)
Thẻ sẽ không được đọc thành tiếng. Đây chỉ là chỉ dẫn diễn xuất, AI sẽ không phát âm từ "whispers".
(Lưu ý: Điều này chỉ áp dụng riêng cho v3.)
① Thẻ tông giọng cảm xúc (Thường hiệu quả nhất khi đặt ở đầu câu)
Thẻ | Ý nghĩa / Hiệu ứng | Trường hợp sử dụng |
|---|---|---|
[excited] | Hào hứng, phấn khích | Thông báo sự kiện, giới thiệu sản phẩm mới |
[sad] | Trầm lắng, buồn bã | Dẫn chuyện cảm xúc, đọc tâm sự |
[angry] | Tức giận, gay gắt | Lời thoại nhân vật, phân cảnh kịch tính |
[whispers] | Thì thầm nhỏ nhẹ | Kể chuyện bí mật, ASMR, tạo kịch tính |
[sarcastic] | Mỉa mai, châm biếm | Nội dung hài hước, làm nổi bật cá tính nhân vật |
[curious] | Tò mò, thắc mắc | Dẫn chuyện kiểu đặt câu hỏi |
[nervous] | Lo lắng, run rẩy | Miêu tả tình huống khẩn cấp, hồi hộp |
[calm] | Điềm tĩnh, ổn định | Thiền, hướng dẫn, thuyết minh |
Ví dụ nhập liệu thực tế (v3):
[excited] Các bạn ơi, sản phẩm mới cuối cùng đã ra mắt rồi!
[whispers] Thật ra thì, mình có chuẩn bị ưu đãi đặc biệt chỉ dành riêng cho hôm nay thôi đấy.
👉 Câu đầu tiên có tông giọng vút lên đầy hào hứng, câu thứ hai đột ngột hạ thấp âm lượng như đang thì thầm.
Khả năng thay đổi tông giọng linh hoạt trong cùng một kịch bản chính là sức hút thực sự của thẻ v3.
② Thẻ hiệu ứng âm thanh (phi ngôn ngữ) (Thường chèn vào giữa câu)
Đây không phải là 'tông giọng' mà là các âm thanh thực tế.
Nó tạo ra các 'âm thanh phi ngôn ngữ' như tiếng cười, tiếng thở dài, tiếng hắng giọng ngay tại vị trí chèn thẻ.
Thẻ | Âm thanh tạo ra | Vị trí chèn phổ biến |
|---|---|---|
[laughs] | Tiếng cười | Giữa hoặc cuối câu |
[chuckles] | Cười khẽ, cười mỉm | Giữa hoặc cuối câu |
[sighs] | Tiếng thở dài | Đầu hoặc giữa câu |
[gasps] | Tiếng hít vào vì ngạc nhiên | Đầu câu |
[clears throat] | Hắng giọng | Đầu câu |
[exhales] | Tiếng thở ra | Giữa hoặc cuối câu |
Ví dụ nhập liệu thực tế (v3):
À, lại quên mất cái này rồi. [sighs] Chắc phải làm lại từ đầu thôi.
Chuyện là hôm qua mình đã… [laughs] mình có một pha xử lý thật ngớ ngẩn.
📌 Mẹo từ Sonetho: Đừng quá tham lam khi dùng thẻ ⚡
Bạn có thể kết hợp nhiều thẻ cùng lúc.
Tuy nhiên, việc lạm dụng quá nhiều thẻ trong một câu thường khiến tông giọng trở nên bất ổn (tốc độ không đều, nhiễu âm) hoặc bị AI bỏ qua hoàn toàn.
Kết luận từ thử nghiệm của chúng tôi là hãy ưu tiên 1 thẻ cho mỗi câu, chỉ chèn ở những vị trí thực sự đắt giá. Càng tiết chế, kết quả càng tự nhiên.
🔤 2. Pronunciation Correction: When Proper Nouns, English, or Numbers Are Off
No matter how well-crafted your prompt is, it’s all for nothing if the AI misreads "ITSUB" as "I-T-Sub." 😭
Pronunciation issues are a completely different domain from tone and emotion, so they require a different set of solutions.
There are three main ways to fix pronunciation.
① Phonetic Spelling (The Simplest, Quick Fix)
Simply replace the word in your prompt with how it sounds.
ChatGPT → Chat-jee-pee-tee
API → A-P-I
2026 → Twenty twenty-six (If numbers keep jumping around)
This is the fastest method for a script you only plan to use once.
② Using Hyphens to Separate Sounds
When two syllables blend together awkwardly (e.g., "fast-track" sounding like one weird word), inserting a hyphen between them creates a clean separation.
Fast-track / Chat-GPT / A-P-I
Hyphens handle both pronunciation separation and a very brief natural pause. We’ll dive deeper into this in the 'Pausing' section below.
③ Pronunciation Dictionary (Essential for Repeated Use)
If the same proper noun appears in every video, phonetic spelling every time is a chore.
In this case, register it once in the 'Pronunciation Dictionary', and it will automatically convert the text even if you input the original word.
🚨 Most Common Mistake (Save Your Credits!)
The Alias field in the dictionary allows phonetic spellings. However, if you want it clearly read in English or if the result is unstable, using the phonetic English spelling is often more reliable. ✅ ITSUB → Eat Sub (or It Sub)
※ Important note: Do not use hyphens in the Pronunciation Dictionary Alias field. Just use the spaced-out spelling (e.g., Eat Sub).
The hyphen (-) is a tool for pausing and sound separation in your main text editor (see section 3 below).
We’ve created a 1-minute guide for setting up your Pronunciation Dictionary with screenshots in the Sonetho Pronunciation Mastery Guide.
If your pronunciation keeps glitching, check that post first!
By the way, v3 handles unfamiliar numbers and symbol patterns (e.g., "$22" → "twenty-two dollars") more flexibly than v2.
However, it has a weakness where it might switch between American and British accents for the same English word within the output,
so if consistency is crucial, pinning it down in the Pronunciation Dictionary is the safest bet.
⏸️ 3. Pausing and Breath Control: The Magic of Punctuation and Hyphens
Surprisingly, punctuation is the most powerful tool in your prompt.
The AI uses the punctuation you insert to decide 'where to pause, how long to break, and what tone to use when finishing.'
① Understanding 'Pause Length' by Punctuation
Punctuation | Effect | Pause Length |
|---|---|---|
Comma , | Slight break, continue flow | Short |
Period . | End of sentence, tone drops | Medium |
Line Break (Enter) | Paragraph break, reset breath | Long |
Question mark ? | Rising intonation | Medium |
Exclamation mark ! | Emphasis/Intensity | Medium |
Ellipsis … | Lingering/Hesitation | Long (smooth) |
Hyphen - | Instantaneous break | Very short |
② The Hyphen (-) — Our Favorite Hidden Technique
When a comma feels too long and unnatural, but no punctuation makes the words mash together,
that 'awkward gap' is perfectly filled by a hyphen.
Sound separation: Fast-track → Prevents words from blurring together.
Micro-breath: Now, then- creates a natural transition to the next sentence.
Building tension: It is-the-ultimate- creates suspenseful pauses.
Detailed tips on using hyphens can be found in our User Tips Roundup. The key takeaway: "Use hyphens instead of commas."
📌 Note for v3 users: Line breaks are a double-edged sword.
In v3, the voice re-calibrates slightly at every line break (paragraph break).
Therefore, to keep the tone perfectly consistent in long content, it is safer to minimize line breaks and keep the text in one block.
Conversely, if you want to shift the atmosphere between scenes, intentionally use line breaks. Use them according to your intent.
③ Precise Pausing — Methods Vary by Model ⚡
When you need exact timing (e.g., "pause for exactly 1 second"), many users get confused because the method depends entirely on the model you are using. (Based on official documentation)
Situation | How to Insert Pause | Notes |
|---|---|---|
v3 Model | [pause] · [short pause] · [long pause] | Bracket audio tags — v3 exclusive |
v2 · Turbo · Flash | <break time="1.5s" /> | Specify time, does not work in v3 |
Studio (Web Editor) | Click 'Insert Pause' button → Set time | No manual typing needed, easiest method |
🚨 Most Common Mistake: Using <break> tags in v3 scripts.
v3 does not support SSML break tags and will ignore them. Use [pause] tags or ellipsis/dashes from the table above. Conversely, v2 models do not recognize [pause], so use <break> for them. Always check your model version first.
If you work in Studio (Web Editor), you don’t need to type tags manually; simply use the 'Insert Pause' button, select the time, and you're done. It’s the most convenient method.
※ Avoid overuse — putting too many pauses in a single script can make the audio output unstable.
📋 4. संग्रह: व्यावहारिक प्रॉम्प्ट टेम्प्लेट (कॉपी-पेस्ट के लिए)
सिद्धांत पर्याप्त है। अब, यहाँ कुछ टेम्प्लेट दिए गए हैं जिन्हें आप तुरंत उपयोग कर सकते हैं।
वर्गाकार कोष्ठक वाले टैग v3 के लिए हैं, जबकि सामान्य विराम चिह्न, हाइफ़न और ध्वन्यात्मक लेखन (phonetic spellings) v2 और v3 दोनों के लिए प्रभावी हैं।
① यूट्यूब सूचनात्मक नरेशन
[curious] दोस्तों, क्या आप इसके बारे में जानते हैं?
आज हम जो चर्चा करने जा रहे हैं, वह सरल है लेकिन इसका परिणाम निश्चित है।
[excited] तो चलिए, शुरू करते हैं!
टिप: शुरुआत में जिज्ञासा के लिए [curious] का उपयोग करें और मुख्य विषय पर आते समय [excited] के साथ ऊर्जा बढ़ाएं। हाइफ़न का उपयोग सांस लेने के लिए करें।
▶ अनुशंसित मॉडल: Eleven v3
② चरित्र संवाद (भावनात्मक अभिनय)
[whispers] किसी को भी पता नहीं चलना चाहिए…
[nervous] सच तो यह है कि मैं उस दिन वहीं था।
[sighs] अब पछताने का कोई फायदा नहीं।
टिप: छोटे वाक्य + शक्तिशाली भावनात्मक टैग = v3 की सबसे बड़ी ताकत। यह कैरेक्टर डबिंग और वेबटून डबिंग के लिए सटीक है।
▶ अनुशंसित मॉडल: Eleven v3
③ उत्पाद विज्ञापन (लगभग 15 सेकंड)
[excited] सिर्फ एक दिन! आज ही यह ऑफर उपलब्ध है।
सोचने में समय बर्बाद न करें-अभी ऑर्डर करें।
[calm] अभी एक स्मार्ट निर्णय लें और बेहतर परिणाम पाएं।
टिप: ऊर्जा (Tension) → विज्ञापन कॉपी → शांत अंत का उपयोग करके उतार-चढ़ाव बनाएं। उच्चारण की गलतियों से बचने के लिए अंग्रेजी शब्दों को हिंदी ध्वन्यात्मक रूप में लिखें।
▶ अनुशंसित मॉडल: Eleven v3
④ शांत गाइड / निर्देश ध्वनि
नमस्कार, आदरणीय ग्राहक।
अब, मैं आपको इंस्टॉलेशन प्रक्रिया के बारे में, चरण-दर-चरण जानकारी दूंगा।
सबसे पहले, पावर बटन को, तीन सेकंड तक दबाकर रखें।
टिप: टैग के बिना केवल अल्पविराम (comma) का उपयोग करके स्पष्टता बनाए रखें। लंबी मार्गदर्शिकाओं के लिए v2 अधिक स्थिर परिणाम देता है।
▶ अनुशंसित मॉडल: Eleven Multilingual v2
✅ प्रॉम्प्ट लेखन चेकलिस्ट
क्या आपने भावनाओं/ध्वनि टैग के लिए v3 मॉडल का चयन किया है?
क्या टैग्स अंग्रेजी में हैं और प्रति वाक्य अधिकतम 1 टैग का नियम पालन किया है?
क्या अंग्रेजी शब्दों, उचित संज्ञाओं और संख्याओं को ध्वन्यात्मक रूप से या हाइफ़न के साथ लिखा है?
क्या बार-बार उपयोग होने वाली संज्ञाओं को उच्चारण शब्दकोश (Pronunciation Dictionary) में दर्ज किया है?
यदि लंबी स्क्रिप्ट में टोन अस्थिर है → क्या आपने लाइन ब्रेक कम किए हैं या v2 का उपयोग किया है?
क्या आपने आउटपुट के बाद एक बार प्रीव्यू (Preview) सुना है? (सिर्फ आंखों से देखकर गलतियां नहीं पकड़ी जा सकतीं!)
❓ अक्सर पूछे जाने वाले प्रश्न (FAQ)
प्र. मैंने [excited] जैसा टैग डाला, लेकिन यह उसे बस "एक्साइटेड" पढ़ रहा है। ऐसा क्यों?
संभावना है कि आप v2 (Multilingual v2) का उपयोग कर रहे हैं।
ऑडियो टैग्स केवल Eleven v3 में अभिनय में बदलते हैं। v2 में ये केवल लिखे हुए शब्द की तरह पढ़े जाते हैं। मॉडल को v3 पर स्विच करके पुन: प्रयास करें।
प्र. क्या टैग अंग्रेजी में ही लिखना अनिवार्य है? क्या हिंदी [उत्साह] काम नहीं करेगा?
हिंदी टैग कभी-कभी काम करते हैं, लेकिन उनकी स्थिरता कम है।
v3 टैग अंग्रेजी पर प्रशिक्षित हैं, इसलिए [whispers], [laughs] जैसे अंग्रेजी शब्दों का उपयोग करने की पुरजोर सलाह दी जाती है।
प्र. संख्याएँ और अंग्रेजी संक्षिप्त शब्द गलत पढ़े जा रहे हैं, सबसे तेज़ समाधान क्या है?
यदि यह केवल एक बार की स्क्रिप्ट है, तो हिंदी ध्वन्यात्मक लेखन (API → ए-पी-आई) सबसे तेज़ है।
यदि शब्द बार-बार आता है, तो इसे उच्चारण शब्दकोश में अंग्रेजी अक्षरों (Alias में बिना हाइफ़न) के साथ पंजीकृत करें।
जब उच्चारण आपस में जुड़ जाता है, तो हाइफ़न (जैसे: इकता-लीस) जादू की तरह काम करता है। अधिक जानकारी के लिए उच्चारण सुधार गाइड देखें।
प्र. लंबी स्क्रिप्ट में टोन बदल जाती है, क्या इसे प्रॉम्प्ट से ठीक किया जा सकता है?
v3 की विशेषता यह है कि यह प्रत्येक लाइन ब्रेक (पैराग्राफ) पर आवाज़ को दोबारा प्रोसेस करती है। लाइन ब्रेक कम करके टेक्स्ट को एक ब्लॉक में रखने से यह समस्या कम हो सकती है।
यदि फिर भी समस्या हो, तो स्थिर वॉयस निरंतरता के लिए v2 का उपयोग करें।
मॉडलों के बीच का अंतर आप v3 बनाम v2 तुलनात्मक प्रयोग में सुन सकते हैं।
प्र. क्या कई सारे इमोशन टैग्स लगाने से आवाज़ और बेहतर होती है?
टैग्स को मिलाना संभव है, लेकिन एक ही वाक्य में बहुत अधिक टैग्स लगाने से टोन अस्थिर हो सकती है (गति में बदलाव या शोर)।
प्रति वाक्य 1 टैग का नियम सबसे सुरक्षित और स्वाभाविक है।
🎁 निष्कर्ष
आज के मुख्य बिंदुओं का सारांश:
इमोशन टैग्स ([excited], [laughs]) केवल v3 के लिए हैं, अंग्रेजी में लिखें, प्रति वाक्य एक टैग।
उच्चारण के लिए: ध्वन्यात्मक लिखना → हाइफ़न → उच्चारण शब्दकोश (Alias अंग्रेजी अक्षरों में)।
विराम के लिए: संकेतों का प्रयोग करें, सूक्ष्म सांस के लिए हाइफ़न, और सटीक ठहराव के लिए मॉडल-विशिष्ट टैग्स (v3=[pause] | v2=<break>) का उपयोग करें।
लंबी सामग्री के लिए लाइन ब्रेक कम करें या v2 चुनें।
Elevenlabs का उपयोग करना वास्तव में एक कला है। आप इसे कैसे 'निर्देशित' करते हैं, उसी पर परिणाम निर्भर करता है।
उपरोक्त टेम्प्लेट में से किसी एक को कॉपी करके Elevenlabs के टेक्स्ट-टू-स्पीच इनपुट बॉक्स में डालें। आप 1 मिनट के भीतर अंतर महसूस करेंगे।
इन टेम्प्लेट्स और चेकलिस्ट को सेव रखें; जब भी आप स्क्रिप्ट लिखें, इनका उपयोग करें। इससे आपकी आवाज़ में जीवंतता आएगी।
अगले लेख में नई उपयोगी युक्तियों के साथ फिर मिलेंगे।
यह Sonetho था ⚡