"So sánh Multilingual v2 với Eleven v3, chắc chắn v3 sẽ vượt trội hơn hẳn phải không?"
Nhiều người trong chúng ta thường mặc định v3 (phiên bản đã ra mắt chính thức sau giai đoạn thử nghiệm) là mô hình cao cấp hơn và chắc chắn sẽ vượt xa v2.
Chúng tôi đã thực hiện bài kiểm tra thực tế bằng cách xuất cùng một nội dung tiếng Việt qua 4 phân đoạn (segment) khác nhau trên cả hai mô hình. Kết quả cho thấy: trong khi khả năng biểu cảm của v3 là cực kỳ ấn tượng, thì về mặt nhất quán giọng nói (voice consistency), v2 vẫn đang giữ phong độ ổn định hơn. Dưới đây là kết quả phân tích chi tiết dựa trên 9 đoạn âm thanh thực tế, giúp người dùng tại Việt Nam hiểu rõ sự khác biệt giữa hai phiên bản.
Chào các bạn, đây là Sonetho. ⚡
Đã một thời gian kể từ khi v3 chính thức ra mắt.
Mặc dù v3 đang dần trở thành "mô hình mặc định", nhưng những người sử dụng thường xuyên như chúng tôi nhận ra rằng: v3 không phải lúc nào cũng vượt trội hơn v2 trong mọi tình huống. (Bản thân tôi hiện tại vẫn đang ưu tiên dùng v2 cho nhiều dự án!)
Vì vậy, chúng tôi đã quyết định kiểm chứng điều này. Bài thử nghiệm được thực hiện trên cùng một chất liệu giọng nói tiếng Việt, cùng một nội dung văn bản, xuất qua cả hai mô hình để đối chiếu trực tiếp.
👉 Công cụ được sử dụng trong thí nghiệm là gói ElevenLabs Creator.
Bạn có thể thực hiện huấn luyện PVC (Voice Cloning) trên cả v2 và v3 với gói Creator trở lên — giảm giá 50% cho tháng đầu tiên (chỉ còn $11/tháng).
🔬 Phương pháp thử nghiệm
Mô hình: Eleven Multilingual v2 / Eleven v3
Giọng nói: Mike — Friendly, Balanced and Clear từ Voice Library của ElevenLabs (PVC)
Văn bản: 4 phân đoạn (Kể chuyện hàng ngày · Cảm xúc · Tiếng Anh/Số liệu · Thẻ hiệu ứng âm thanh)
Biến số bổ sung (Chỉ dành cho Segment 1): v3 được thử nghiệm với 2 cách: "có xuống dòng" và "xóa xuống dòng" để kiểm tra độ ổn định của tông giọng.
Thử thách khó (Segment 3): Nhập nguyên văn các từ tiếng Anh/số như "GPT-5.5", "$22" mà không chuyển đổi sang dạng chữ (ví dụ: không đổi $22 thành 22 USD) để thử khả năng xử lý của v3.
🎙️ Segment 1 — Giọng kể chuyện (Câu trần thuật tự nhiên)
Đây là những câu văn xuôi bình thường trong tiếng Việt.
Trọng tâm của phân đoạn này không nằm ở nội dung, mà là "giọng nói thay đổi thế nào khi có xuống dòng".
Chúng tôi đã nhập cùng một đoạn văn bản theo hai cách vào ElevenLabs Studio:
Có xuống dòng: Chia thành 4 đoạn văn ngắn (mỗi câu là một đoạn riêng).
Xóa xuống dòng: Gộp tất cả thành một đoạn văn duy nhất.
v2 (Có xuống dòng)
v3 (Có xuống dòng)
v3 (Xóa xuống dòng — Gộp một đoạn)
📌 Phát hiện 1: Giọng của v3 thay đổi nhẹ mỗi khi xuống dòng.
Với v2, dù bạn ngắt dòng ở đâu thì tông giọng, ngữ điệu và tốc độ nói vẫn được giữ ổn định trong suốt quá trình xuất âm thanh.
Ngược lại, v3 dường như được "lấy mẫu lại" (reseed) mỗi khi xuống dòng, khiến giọng nói có sự thay đổi nhỏ (đôi khi còn bị mất âm ở cuối câu).
Ở đoạn thứ ba khi chúng tôi xóa bỏ tất cả các dòng ngắt, v3 duy trì được sự ổn định. Điều này cho thấy vấn đề của v3 không phải là lỗi mô hình mà xuất phát từ đặc tính "tái tạo theo đoạn".
Tại sao điều này quan trọng? Vì trong các công việc cần sự nhất quán tuyệt đối như: **lồng tiếng series dài kỳ, nhân vật ảo, hay sách nói (audiobook)**, bạn không nên sử dụng v3 nếu ngắt dòng quá nhiều. Cách xử lý là giảm thiểu ngắt đoạn hoặc gộp các chương thành một khối văn bản lớn trong ElevenLabs Studio.
😊 Segment 2 — Biểu cảm cảm xúc (Ngạc nhiên · Vui vẻ · Nghiêm túc)
Phân đoạn này kiểm tra khả năng thể hiện các tông giọng cảm xúc khác nhau với cùng một từ ngữ.
v2
v3
📌 Phát hiện 2: v3 có khả năng biểu cảm cảm xúc vượt trội.
Tông giọng của v2 trong cùng một câu văn khá bằng phẳng. Sự ngạc nhiên trong câu "Ồ, thật vậy sao?" và nét nghiêm túc trong câu "Thú thật, tôi thấy hơi bị sốc" không có sự khác biệt rõ rệt.
v3 lại sở hữu dải động (dynamic range) lớn hơn nhiều. Khi ngạc nhiên, tông giọng vút cao; khi nghiêm túc, hơi thở trở nên sâu lắng, và với những câu cần sự nhấn nhá, v3 thậm chí mô phỏng được cả khoảng dừng ngập ngừng đầy tự nhiên.
Trong lĩnh vực này, v2 khó có thể bắt kịp v3. Nếu bạn làm quảng cáo, lồng tiếng phim, hay giọng nhân vật game, v3 chắc chắn là sự lựa chọn tối ưu.
Nếu muốn trải nghiệm khả năng biểu cảm của v3 — hãy dùng cả v2 và v3 trong cùng một gói
Cả v2 và v3 đều có sẵn trong gói Creator, và bạn có thể huấn luyện giọng nói của chính mình bằng PVC. Hãy tận dụng ưu đãi giảm giá 50% tháng đầu tiên ($11) để trải nghiệm sự khác biệt.
Khởi đầu với gói Creator (giảm 50% cho cả v2 & v3) →
🔤 Segment 3 — Kết hợp Tiếng Anh · Số · Danh từ riêng
Đây là phân đoạn cho thấy sự đánh đổi thú vị nhất trong thí nghiệm.
Chúng tôi đã cố tình nhập các biểu thức khó đọc đối với người Việt như "GPT-5.5", "$22", "Claude Opus 4.7", "API 300ms" mà không qua chỉnh sửa.
v2
v3
📌 Phát hiện 3 (Sự đánh đổi): Phụ thuộc vào dữ liệu huấn luyện.
v2 xuất âm thanh dựa trên dữ liệu đã học. Nếu trong dữ liệu PVC của bạn chứa nhiều từ tiếng Anh và số, v2 sẽ xử lý khá tốt. Tuy nhiên, nếu nó không gặp các mẫu đó trong lúc học, ngay cả các con số đơn giản cũng có thể bị đọc sai.
v3 ít phụ thuộc vào dữ liệu huấn luyện hơn, nên nó xử lý các mẫu mới rất tự nhiên. Nó chuyển "$22" thành "hai mươi hai đô la", "300ms" thành "ba trăm mili giây" một cách mượt mà.
📌 Phát hiện 4 (Điểm yếu mới của v3): Sự nhất quán trong phát âm ngoại ngữ.
Trong cùng một đoạn xuất, v3 đôi khi chuyển đổi linh hoạt giữa giọng Anh, Mỹ và giọng Việt.
Trọng âm của "ElevenLabs" hoặc cách phát âm "Creator" có thể bị thay đổi giữa chừng. Nếu video của bạn cần sự nhất quán tuyệt đối trong phát âm xuyên suốt, bạn sẽ tốn thêm công sức hậu kỳ.
v2 duy trì các kiểu phát âm đã học nên nhất quán hơn, nhưng nếu dữ liệu huấn luyện không có nhiều tiếng Anh, nó sẽ phát âm từ nước ngoài nghe rất "cứng" kiểu Việt hóa.
Tóm tắt:
Điều kiện thí nghiệm (Mike, giọng mặc định của Library): v2 cũng có thể xử lý tiếng Anh/số ở mức khá, dù không mượt bằng v3.
Nếu dùng PVC cá nhân + dữ liệu huấn luyện phong phú: v2 cho kết quả ổn định và tự nhiên hơn v3 (theo kinh nghiệm của tôi). Lợi thế hơn v3 về sự nhất quán phát âm.
Nếu dùng PVC cá nhân + dữ liệu ít tiếng Anh/số: v2 đọc số rất tệ. v3 là lựa chọn an toàn hơn.
Nếu cần phát âm ngoại ngữ ổn định trong cùng một video: v2 (ít công sức hậu kỳ hơn).
Tóm lại, độ phong phú của dữ liệu PVC là yếu tố quyết định sự thành bại của v2. Thí nghiệm này dựa trên giọng Mike (giọng chính thức, dữ liệu phong phú), sát với môi trường của người dùng phổ thông.
🎭 Segment 4 — Thẻ hiệu ứng âm thanh ([cười] [thở dài] v.v.)
Sự khác biệt về biểu cảm và hiệu ứng âm thanh của v3 được cảm nhận rõ nhất khi bạn tự mình nhập văn bản. Chỉ cần nhập nội dung kèm theo các thẻ như [cười] hay [thở dài] vào ElevenLabs Text to Speech, bạn sẽ thấy kết quả của v3 đáng kinh ngạc như thế nào.
🎙️ Thử nhập thẻ v3 trên Text to Speech ngay →Một trong những tính năng mới của v3 là xử lý các thẻ hiệu ứng âm thanh. Chúng tôi đã so sánh cách v2 xử lý cùng các thẻ đó.
v2
v3
📌 Phát hiện 5: v2 phớt lờ các thẻ hoặc đọc nó như văn bản thông thường.
Với v2, từ "[cười]" bị đọc thành chữ "cười". Bản thân mô hình v2 không nhận diện được khái niệm thẻ hiệu ứng âm thanh.
v3 chuyển đổi thẻ thành âm thanh thực tế. "[cười]" trở thành tiếng cười thật sự, "[thở dài]" là tiếng lấy hơi. Đây là thế mạnh tuyệt đối của v3.
📊 Bảng tổng hợp ưu điểm theo từng hạng mục
Hạng mục | v2 | v3 | Ưu thế |
|---|---|---|---|
Tự nhiên (văn xuôi) | Tốt | Rất tốt | v3 |
Nhất quán giọng (theo đoạn) | Rất ổn định | Thay đổi mỗi lần xuất | v2 |
Nhất quán phát âm ngoại ngữ | Ổn định | Chuyển Anh ↔ Mỹ | v2 |
Độ động cảm xúc | Bằng phẳng | Phong phú | v3 |
Số/Ký hiệu (đã học qua PVC) | Tự nhiên | Tự nhiên | Tương đương |
Số/Ký hiệu (chưa học) | Yếu | Tốt | v3 |
Xử lý danh từ riêng/ngoại ngữ | Phụ thuộc dữ liệu | Linh hoạt | v3 |
Thẻ hiệu ứng ([cười], v.v.) | Bị lờ đi | Được xử lý | v3 |
Kết luận là bạn 'cần cả hai' — và gói Creator là đủ
Vì v2 và v3 có thế mạnh riêng biệt, gói Creator cho phép bạn sử dụng cả hai mô hình với mức giá hợp lý chỉ $11 cho tháng đầu.
Bắt đầu gói Creator với ưu đãi 50% cho cả v2 & v3 →
🎯 Khuyên dùng mô hình nào cho nội dung nào?
① Nội dung series · Lồng tiếng nhân vật · Audiobooks — v2
Sự nhất quán của giọng nói trong nhiều phân đoạn là yếu tố then chốt.
v3 có hiện tượng "reseed" mỗi khi xuống dòng, khiến giọng biến đổi giữa các phần.
v2 là lựa chọn rõ ràng cho lĩnh vực này, nhất là khi dữ liệu PVC của bạn đã được huấn luyện tốt.
② Quảng cáo ngắn · Lồng tiếng cần biểu cảm mạnh — v3
Về khả năng biến chuyển cảm xúc, v2 không thể theo kịp v3.
Đối với các nội dung ngắn và đầy năng lượng, v3 là lựa chọn áp đảo.
③ API · TTS tài liệu ngoại ngữ · Đọc báo cáo nhiều số liệu — v3
Khả năng tự động hiểu các mẫu mới mà không cần dữ liệu huấn luyện giúp v3 xử lý rất trơn tru.
Chỉ cần lưu ý hậu kỳ nếu yêu cầu về giọng phát âm ngoại ngữ phải đồng nhất tuyệt đối.
💡 Cách thực chiến với tài liệu ngoại ngữ và báo cáo số liệu bằng v3 xem tại đây → Cách dùng ElevenReader để đọc tài liệu ngoại ngữ và báo cáo với v3
④ Nội dung sử dụng thẻ hiệu ứng âm thanh — v3
Với các thẻ [cười], [thở dài], [thì thầm], v3 là sự lựa chọn duy nhất.
⑤ Nội dung ổn định sử dụng PVC cá nhân — v2
Nếu bạn dùng giọng của chính mình, dữ liệu huấn luyện thường rất phong phú. Trong trường hợp này, v2 cho kết quả dễ dự đoán, nhất quán và phát âm chính xác hơn v3.
💡 Kết luận từ Sonetho
Dù ElevenLabs đang đẩy mạnh v3 làm mô hình mặc định, nhưng ở thời điểm hiện tại, v3 chưa thể thay thế hoàn toàn v2 trong mọi lĩnh vực.
Vấn đề về sự nhất quán của v3 dường như là đặc tính "reseed theo đoạn". Đây là điểm có thể được cải thiện trong tương lai và chúng tôi sẽ tiếp tục theo dõi.
Khuyến nghị hiện tại của chúng tôi:
Nếu nhất quán giọng + phát âm ngoại ngữ + PVC cá nhân là ưu tiên hàng đầu: Dùng v2.
Nếu biểu cảm cảm xúc + hiệu ứng âm thanh + xử lý mẫu mới lạ là quan trọng: Dùng v3.
Việc linh hoạt luân chuyển giữa hai mô hình dựa trên từng loại nội dung là cách làm thực tế nhất.
👉 Hướng dẫn nhận ưu đãi 50% cho ElevenLabs tại Hướng dẫn ưu đãi ElevenLabs tháng 5/2026.
👉 Hoặc bắt đầu ngay với Link áp dụng giảm giá 50% tự động (cho người dùng mới).
📚 Bài viết liên quan nên đọc
Bí kíp của người dùng lâu năm: Đừng lãng phí tiền nếu không chọn đúng 'mô hình này' cho tiếng Việt
ElevenLabs Scribe v2 — Phân tách giọng nói người phỏng vấn, thẻ hiệu ứng
Hẹn gặp lại các bạn trong bài viết tiếp theo. Đây là Sonetho. ⚡
📚 Bài viết liên quan nên đọc