"Tại sao cùng một kịch bản mà bản hôm qua với hôm nay nghe lại khác nhau thế nhỉ?"
Đây là điều mà ai sử dụng ElevenLabs cũng từng trải qua ít nhất một lần.
Thực tế, 80% sự khác biệt đó nằm ở việc 'bạn đã viết prompt (văn bản đầu vào) như thế nào'.
Xin chào, tôi là Sonetho đây ⚡
Tại ElevenLabs, 'prompt' không phải là thứ gì đó quá cao siêu, mà chính là đoạn văn bản bạn nhập vào để chuyển đổi thành âm thanh.
Nhưng điểm mấu chốt ở đây là: văn bản này không đơn thuần chỉ là 'một khối chữ'.
Cùng một câu "Thật là tuyệt vời",
Nếu chỉ nhập vào bình thường, AI sẽ đọc theo cách đều đều.
Nhưng nếu thêm một thẻ cảm xúc vào phía trước, nó sẽ diễn xuất với tông giọng ngạc nhiên thực sự.
Chỉ một con số, một dấu chấm, hay một dấu gạch nối cũng đủ để làm thay đổi hoàn toàn kết quả.
Với kinh nghiệm gần 3 năm "huấn luyện" ElevenLabs mỗi ngày,
hôm nay phòng thí nghiệm sẽ đào sâu vào 'bí kíp viết prompt'.
Từ thẻ âm thanh v3, chỉnh sửa phát âm, ngắt nghỉ cho đến các mẫu template thực chiến có thể copy-paste ngay, tất cả đều có trong bài viết này. Hãy đọc đến cuối nhé!
📌 Trước tiên: Cách hoạt động của prompt phụ thuộc vào 'Model'
Trước khi đi vào chi tiết, có một điều cần lưu ý.
Những 'thẻ âm thanh (audio tag)' mà chúng ta sắp thảo luận — ví dụ như [excited], [laughs] trong ngoặc vuông — chỉ hoạt động trên model Eleven v3.
Điều gì sẽ xảy ra nếu bạn chèn các thẻ này vào v2 (Multilingual v2)?
AI sẽ không thể hiểu thẻ đó là một lệnh 'diễn xuất', mà nó sẽ xử lý thẻ đó như văn bản thông thường (thẻ có thể bị đọc thành chữ hoặc bị bỏ qua). 😅
(Bạn có thể lắng nghe thử nghiệm so sánh giữa v2 và v3 với cùng một câu qua 9 bản track tại So sánh tiếng Việt giữa Eleven v3 và v2.)
Tóm tắt nhanh
• Muốn dùng thẻ cảm xúc/hiệu ứng âm thanh → v3
• Cần nội dung dài + tính nhất quán của giọng nói → v2 (Tránh điểm yếu của v3 khi tông giọng thay đổi theo từng đoạn)
• Chỉnh sửa phát âm/ngắt nghỉ (dấu gạch nối) → Áp dụng cho cả v2 và v3
Nếu muốn tìm hiểu sâu hơn về ưu và nhược điểm của từng model, bạn nên đọc thêm bài viết Bí kíp sử dụng thực tế v2 vs v3.
🎭 1. Tổng hợp thẻ âm thanh v3 (Cảm xúc · Hiệu ứng)
Thẻ âm thanh là lệnh yêu cầu AI 'hãy nói như thế này' bằng tiếng Anh đặt trong dấu ngoặc vuông [ ].
Mặc dù hướng dẫn chính thức chỉ nói rằng 'thẻ ảnh hưởng đến cách truyền tải (delivery) của văn bản phía sau',
nhưng thực tế sử dụng cho thấy: nếu đặt thẻ phía trước, nó sẽ định hình tông giọng cho toàn bộ câu, còn nếu chèn vào giữa câu, nó sẽ tạo ra hiệu ứng (cười, thở dài, v.v.) ngay tại vị trí đó.
Hãy nhớ hai điểm quan trọng sau:
Thẻ phải được viết bằng tiếng Anh. (Ví dụ: [whispers] sẽ hiệu quả hơn nhiều so với việc dùng từ tiếng Việt trong ngoặc)
Thẻ sẽ không được đọc thành tiếng. Đó chỉ là chỉ dẫn diễn xuất, AI sẽ không đọc chữ "whispers" thành tiếng.
(Chỉ áp dụng với v3.)
① Thẻ tông giọng cảm xúc (Thường đặt đầu câu sẽ hiệu quả nhất)
Thẻ | Ý nghĩa / Hiệu ứng | Sử dụng khi nào |
|---|---|---|
[excited] | Hào hứng · Phấn khích | Thông báo sự kiện, giới thiệu sản phẩm mới |
[sad] | Trầm lắng · Buồn bã | Kể chuyện cảm động, đọc tâm sự |
[angry] | Giận dữ · Kịch tính | Lời thoại nhân vật, cảnh phim kịch tính |
[whispers] | Thì thầm nhỏ nhẹ | Kể bí mật, phong cách ASMR, tạo sự căng thẳng |
[sarcastic] | Mỉa mai · Châm biếm | Nội dung hài hước, tạo cá tính nhân vật |
[curious] | Tò mò · Thắc mắc | Câu hỏi dẫn chuyện |
[nervous] | Lo lắng · Hồi hộp | Mô tả tình huống nguy cấp |
[calm] | Điềm tĩnh · Ổn định | Thiền, hướng dẫn, dẫn chương trình |
Ví dụ nhập thực tế (v3):
[excited] Các bạn ơi, cuối cùng sản phẩm mới đã ra mắt rồi!
[whispers] Thực ra là, mình đã chuẩn bị một ưu đãi đặc biệt chỉ dành cho hôm nay thôi đấy.
👉 Câu đầu tiên có tông giọng cao vút, câu thứ hai đột ngột hạ thấp giọng như đang thì thầm.
Khả năng thay đổi tông giọng ngay trong cùng một kịch bản chính là sức hấp dẫn thực sự của thẻ v3.
② Thẻ hiệu ứng âm thanh (Thường chèn vào giữa câu)
Đây không phải là 'tông giọng' mà là âm thanh thực sự.
Nó sẽ tạo ra các 'âm thanh phi ngôn ngữ' như tiếng cười, thở dài, hắng giọng ngay tại vị trí đó.
Thẻ | Âm thanh phát ra | Vị trí chèn |
|---|---|---|
[laughs] | Tiếng cười | Giữa hoặc cuối câu |
[chuckles] | Cười khúc khích nhẹ | Giữa hoặc cuối câu |
[sighs] | Thở dài | Đầu hoặc giữa câu |
[gasps] | Hít vào vì ngạc nhiên | Đầu câu |
[clears throat] | Hắng giọng | Đầu câu |
[exhales] | Thở hắt ra | Giữa hoặc cuối câu |
Ví dụ nhập thực tế (v3):
À, suýt nữa thì quên mất cái này. [sighs] Chắc phải làm lại từ đầu thôi.
Thế nên hôm qua tôi đã làm gì ấy nhỉ… [laughs] Tôi đã phạm một sai lầm ngớ ngẩn thật sự.
📌 Mẹo từ biên tập: Đừng 'tham' thẻ ⚡
Bạn có thể kết hợp nhiều thẻ, nhưng nếu chồng quá nhiều thẻ trong một câu, tông giọng sẽ trở nên bất ổn (tốc độ không đều, có tạp âm) hoặc thường bị AI bỏ qua.
Lời khuyên của chúng tôi là nên đặt 1 thẻ mỗi câu làm giá trị mặc định, chỉ thêm vào những chỗ thực sự cần thiết. Càng ít thẻ, kết quả càng tự nhiên.
🔤 2. Chỉnh sửa phát âm: Khi AI đọc sai danh từ riêng, tiếng Anh hoặc con số
Dù prompt có hay đến đâu mà AI đọc tên thương hiệu của bạn bị sai thì cũng bằng không. 😭
Vấn đề phát âm là phạm vi hoàn toàn khác với tông giọng và cảm xúc, nên cách xử lý cũng khác biệt.
Có ba cách để kiểm soát phát âm:
① Phiên âm theo cách đọc (Đơn giản nhất, xử lý nhanh)
Cách này là chuyển đổi từ sang cách đọc dễ hiểu nhất rồi chèn vào prompt.
ChatGPT → Chát-gì-pi-ti
API → Ê-pi-ai
2026 → hai nghìn không trăm hai mươi sáu (Khi AI đọc số không chuẩn)
Nếu là kịch bản chỉ sử dụng một lần thì đây là cách nhanh nhất.
② Dùng dấu gạch nối (-) để tách âm
Khi hai từ bị dính vào nhau gây khó hiểu, chỉ cần đặt dấu gạch nối giữa chúng để tách biệt rõ ràng.
Chát-gì-pi-ti / Ê-pi-ai
Dấu gạch nối không chỉ tách âm mà còn tạo ra khoảng nghỉ rất ngắn, cách dùng chi tiết sẽ ở phần 'ngắt nghỉ' bên dưới.
③ Từ điển phát âm (Bắt buộc nếu cần dùng nhiều lần)
Nếu các danh từ riêng xuất hiện lặp lại trong nhiều video, việc sửa thủ công mỗi lần sẽ rất tốn thời gian.
Lúc này, hãy đăng ký vào 'Pronunciation Dictionary' (Từ điển phát âm) một lần, và AI sẽ tự động hiểu mỗi khi thấy từ đó trong kịch bản.
🚨 Sai lầm phổ biến (Lãng phí Credit!)
Trong phần Alias (bí danh) của từ điển, nếu muốn AI đọc tiếng Việt, bạn hãy viết theo cách đọc thuần Việt. Tuy nhiên, nếu muốn AI đọc tiếng Anh chuẩn, hãy viết cách phiên âm sang tiếng Anh hoặc giữ nguyên chính tả tiếng Anh dễ đọc. ✅ Ví dụ: ITSUB → Eat Sub
※ Lưu ý: Không nên dùng dấu gạch nối trong phần Alias của từ điển. Chỉ cần viết từ cách xa nhau (Eat Sub) là được.
Dấu gạch nối (-) là công cụ dùng để ngắt nghỉ và tách âm trong chính kịch bản của bạn.
Hướng dẫn cách tạo từ điển phát âm chi tiết từng bước đã được chúng tôi đúc kết trong bài Hướng dẫn hoàn hảo về chỉnh sửa phát âm ElevenLabs. Nếu phát âm liên tục bị sai, hãy đọc bài này trước!
Lưu ý: v3 xử lý các mẫu số và ký hiệu mới (ví dụ: "$22" → "hai mươi hai đô la") linh hoạt hơn v2.
Tuy nhiên, nó có nhược điểm là đôi khi tự đổi giọng giữa tiếng Anh-Mỹ và Anh-Anh, nên nếu tính nhất quán là ưu tiên hàng đầu, hãy dùng từ điển phát âm để chốt cách đọc.
⏸️ 3. Ngắt nghỉ và kiểm soát hơi thở: Phép màu từ dấu câu và gạch nối
Trong prompt, công cụ mạnh mẽ đến bất ngờ chính là dấu câu.
AI nhìn vào dấu câu bạn đặt để quyết định 'nơi nào nên nghỉ, thời gian nghỉ bao lâu, và kết thúc với tông giọng thế nào'.
① Cảm nhận 'độ dài khoảng nghỉ' theo từng dấu câu
Dấu | Hiệu ứng | Thời gian nghỉ |
|---|---|---|
Dấu phẩy , | Ngắt nhẹ và tiếp tục | Ngắn |
Dấu chấm . | Cuối câu, hạ tông giọng | Trung bình |
Xuống dòng(Enter) | Ngắt đoạn, reset hơi thở | Dài |
Dấu hỏi ? | Lên giọng ở cuối | Trung bình |
Dấu chấm than ! | Nhấn mạnh năng lượng | Trung bình |
Dấu lửng … | Dư âm · Ngập ngừng | Dài (mềm mại) |
Dấu gạch nối - | Ngắt quãng cực nhanh | Rất ngắn |
② Dấu gạch nối (-) — Vũ khí bí mật mà chúng tôi yêu thích nhất
Khi dùng dấu phẩy thì nghỉ quá lâu gây gượng gạo, mà không dùng thì chữ bị dính vào nhau.
Khoảng nghỉ 'lửng lơ' đó được lấp đầy bởi dấu gạch nối.
Tách âm: Mười-bảy → Tránh lỗi đọc dính từ
Hơi thở vi mô: Nào, bây giờ- tạo khoảng nghỉ tự nhiên cho câu tiếp theo
Tạo sự căng thẳng: Đó-chính-là- ngắt quãng tạo nhịp điệu
Các kiến thức gốc về dấu gạch nối có chi tiết hơn trong bài Tổng hợp bí kíp của người dùng thực tế. "Dùng gạch nối thay cho dấu phẩy" chính là điểm then chốt.
📌 Nếu dùng v3: Xuống dòng là con dao hai lưỡi
v3 có đặc tính là giọng nói được tái thiết lập một chút sau mỗi lần xuống dòng (ngắt đoạn).
Vì vậy, nếu muốn duy trì tông giọng nhất quán trong nội dung dài, hãy hạn chế xuống dòng và viết thành khối. Ngược lại, nếu muốn thay đổi không khí cho từng cảnh, hãy chủ động tận dụng việc xuống dòng. Hãy sử dụng tùy theo mục đích.
③ Khoảng nghỉ (Pause) chính xác — Cách làm hoàn toàn khác nhau tùy model ⚡
Khi cần khoảng nghỉ chính xác như "dừng lại đúng 1 giây", nhiều người thường lúng túng.
Vì cách thực hiện phụ thuộc hoàn toàn vào model bạn đang dùng.
Tình huống | Cách chèn khoảng nghỉ | Ghi chú |
|---|---|---|
Model v3 | [pause] · [short pause] · [long pause] | Thẻ âm thanh trong ngoặc vuông — chỉ dành cho v3 |
v2 · Turbo · Flash | <break time="1.5s" /> | Chỉ định theo giây, không hoạt động trên v3 |
Studio (Trình chỉnh sửa web) | Nhấp nút 'Chèn khoảng nghỉ (pause)' → cài đặt thời gian | Không cần gõ vào văn bản, tiện nhất |
🚨 Sai lầm phổ biến nhất: Chèn thẻ <break> vào kịch bản v3
v3 không hỗ trợ thẻ SSML break, nó sẽ bị AI bỏ qua hoàn toàn. Để dừng nghỉ trong v3, hãy dùng thẻ [pause] hoặc dấu lửng (…), dấu gạch ngang (—).
Ngược lại, v2 không nhận lệnh [pause] nên phải dùng thẻ <break>. Hãy luôn xác nhận model đang sử dụng trước tiên.
Lưu ý rằng nếu làm việc trên Studio (trình chỉnh sửa web), bạn không cần gõ thẻ thủ công mà chỉ cần nhấn nút chèn khoảng nghỉ, rất đơn giản.
※ Dù dùng cách nào, đừng lạm dụng — chèn quá nhiều khoảng nghỉ trong một kịch bản có thể làm âm thanh trở nên thiếu ổn định.
📋 4. Tổng hợp mẫu Prompt thực chiến (Copy-paste)
Lý thuyết đã đủ, giờ là lúc bạn lấy các mẫu template này.
Thẻ trong ngoặc vuông dành cho v3, còn các dấu câu, gạch nối và phiên âm thì dùng cho cả v2/v3.
① Dẫn chuyện thông tin (YouTube)
[curious] Các bạn ơi, các bạn có biết điều này không?
Nội dung hôm nay tuy đơn giản-nhưng hiệu quả lại cực kỳ cao.
[excited] Nào, hãy cùng bắt đầu ngay thôi!
Điểm nhấn: Mở đầu bằng [curious] để gây tò mò, vào nội dung chính với [excited] để tăng năng lượng. Dùng gạch nối để tạo nhịp thở.
▶ Model khuyên dùng: Eleven v3
② Lời thoại nhân vật (Diễn xuất cảm xúc)
[whispers] Đừng nói cho ai biết nhé…
[nervous] Thực ra là, ngày đó tôi có ở đó.
[sighs] Bây giờ có hối hận thì cũng chẳng ích gì nữa rồi.
Điểm nhấn: Câu ngắn + thẻ cảm xúc mạnh = thế mạnh của v3. Rất hợp lồng tiếng nhân vật, webtoon.
▶ Model khuyên dùng: Eleven v3
③ Quảng cáo sản phẩm (Khoảng 15 giây)
[excited] Chỉ duy nhất một ngày! Chỉ hôm nay mới có giá này.
Do dự là-chỉ làm bạn nhận hàng chậm hơn thôi.
[calm] Hãy đưa ra lựa chọn thông minh ngay bây giờ.
Điểm nhấn: Tăng năng lượng → nội dung chính → kết thúc trầm lắng. Phiên âm từ tiếng Anh sang cách đọc Việt để tránh lỗi phát âm.
▶ Model khuyên dùng: Eleven v3
④ Giọng hướng dẫn / Thông báo trầm ổn
Xin chào quý khách.
Sau đây, tôi sẽ hướng dẫn bạn quy trình lắp đặt từng bước một.
Đầu tiên, hãy nhấn và giữ nút nguồn trong ba giây.
Điểm nhấn: Không dùng thẻ, chỉ dùng dấu phẩy để đọc mạch lạc. Với văn bản hướng dẫn dài cần sự nhất quán, v2 sẽ ổn định hơn.
▶ Model khuyên dùng: Eleven Multilingual v2
✅ Checklist viết Prompt
Nếu dùng thẻ cảm xúc/hiệu ứng → Đã kiểm tra xem model là v3 chưa?
Thẻ có viết bằng tiếng Anh và mặc định 1 thẻ/câu không?
Tiếng Anh/danh từ riêng/số đã được phiên âm hoặc dùng gạch nối chưa?
Danh từ riêng lặp lại đã được đăng ký vào từ điển phát âm chưa?
Nếu nội dung dài mà giọng bị đổi tông → Đã thử giảm số lần xuống dòng hoặc dùng v2 chưa?
Đã nghe thử sau khi xuất âm thanh chưa? (Chỉ nhìn bằng mắt không phát hiện được đâu!)
❓ FAQ — Câu hỏi thường gặp về Prompt
Q. Tôi chèn thẻ [excited] mà nó cứ đọc thành "ê-xai-ti-đờ". Tại sao vậy?
Khả năng cao bạn đang dùng model v2 (Multilingual v2).
Thẻ âm thanh chỉ chuyển thành diễn xuất trên Eleven v3, còn v2 sẽ đọc y nguyên như văn bản. Hãy đổi sang v3 rồi thử lại nhé.
Q. Thẻ có bắt buộc phải viết bằng tiếng Anh không? Tiếng Việt [thì thầm] được không?
Thẻ tiếng Việt thỉnh thoảng vẫn hiệu quả nhưng độ ổn định không cao.
Thẻ v3 được học dựa trên tiếng Anh, nên rất khuyến khích dùng tiếng Anh như [whispers], [laughs].
Bạn cứ copy từ bảng trong bài là tiện nhất.
Q. Số hoặc từ viết tắt tiếng Anh hay bị đọc sai, cách giải quyết nhanh nhất?
Nếu chỉ dùng một lần thì phiên âm ra tiếng Việt (API → Ê-pi-ai) là nhanh nhất.
Nếu từ đó lặp lại nhiều lần, hãy đăng ký vào từ điển phát âm bằng ký tự tiếng Anh (Alias không dùng gạch nối, ví dụ 'Eat Sub').
Nếu từ bị dính nhau khi đọc, dấu gạch nối (Mười-bảy) là thuốc đặc trị.
Q. Kịch bản dài mà giọng bị đổi giữa chừng, prompt có chặn được không?
v3 có đặc tính là tái thiết lập giọng nói sau mỗi lần xuống dòng (đoạn), nên nếu giảm xuống dòng và nhập thành một khối, hiện tượng này sẽ giảm bớt.
Nếu vẫn không ổn, chuyển sang v2 có độ nhất quán giọng cao hơn là cách chắc chắn nhất.
Q. Chèn nhiều thẻ cảm xúc có làm giọng phong phú hơn không?
Kết hợp nhiều thẻ về lý thuyết là được.
Nhưng chồng quá nhiều thẻ trong một câu thường làm tông giọng bất ổn (thay đổi tốc độ, tạp âm) hoặc bị bỏ qua.
Hãy lấy 1 thẻ/câu làm chuẩn, chỉ dùng ở những chỗ cần thiết là cách an toàn và tự nhiên nhất.
🎁 Lời kết
Tóm tắt lại các điểm chính hôm nay:
Thẻ cảm xúc/hiệu ứng ([excited], [laughs]) chỉ dành cho v3, dùng tiếng Anh, cơ bản 1 thẻ/câu.
Phát âm giải quyết theo thứ tự: Phiên âm → Dấu gạch nối → Từ điển phát âm (Alias là chữ cái tiếng Anh, không gạch nối).
Ngắt nghỉ dùng dấu câu, hơi thở dùng gạch nối, khoảng nghỉ chính xác dùng theo từng model (v3=[pause] · v2=<break> · Studio=nút pause, đừng lạm dụng).
Nội dung dài bị đổi giọng thì giảm xuống dòng hoặc dùng v2.
ElevenLabs suy cho cùng là cuộc chiến của việc 'huấn luyện AI thế nào'.
Cùng một câu, tùy cách viết prompt mà nó có thể là một bản đọc bình thường, hoặc là màn diễn xuất của một diễn viên lồng tiếng thực thụ.
Hãy thử copy một trong các template trên vào khung nhập liệu của ElevenLabs và nhấn nghe thử, bạn sẽ cảm nhận được sự khác biệt chỉ trong 1 phút.
Hãy lưu lại bài viết và checklist này để dùng mỗi khi viết kịch bản.
Văn bản của bạn chắc chắn sẽ trở nên sống động hơn rất nhiều!
Hẹn gặp lại các bạn với những bí kíp hữu ích hơn trong bài viết tới.
Từ Sonetho ⚡