[Đánh giá Dubbing v2 Phần 1] So sánh chi tiết với v1 qua Demon Slayer - Cập nhật cực đỉnh!

⚡ Tóm tắt 3 điểm chính
• Không cần thao tác thủ công phức tạp — khả năng truyền tải tông giọng, ngữ điệu và diễn xuất vượt xa phiên bản v1.
• Trải nghiệm thực tế tự động lồng tiếng tiếng Việt cho tác phẩm "Thanh Gươm Diệt Quỷ: Chuyến tàu vô tận".
• Kỷ nguyên mới đã mở ra: Nhà sáng tạo có thể vươn ra thế giới bằng chính bản sắc giọng nói của mình.

Xin chào các bạn, tôi là biên tập viên từ Sonetho. ⚡

Trong bài viết giới thiệu sự kiện ra mắt Dubbing v2 trước đây, chúng tôi đã hứa sẽ "tự mình kiểm chứng".
Đúng như lời hứa, chúng tôi đã thử nghiệm tự động lồng tiếng tiếng Việt cho một phân cảnh trong Thanh Gươm Diệt Quỷ (Demon Slayer) — Chuyến tàu vô tận bằng v2.
Kết luận ngắn gọn là… Hiệu năng thực sự kinh ngạc. Những hạn chế của phiên bản cũ không chỉ được khắc phục mà còn vượt xa kỳ vọng.

▲ ElevenLabs Dubbing v2 · Tự động lồng tiếng tiếng Việt (Gốc: Tiếng Nhật → Tiếng Việt) · Speaker similarity 7

Hạn chế của phiên bản v1 trước đây

Như đã đề cập trong bài viết về công nghệ nhân bản giọng nói (Clip vs Track vs IVC), quy trình làm việc thời v1 khá vất vả:

Tính năng lồng tiếng tự động thường gặp lỗi lệch khớp (sync) và dịch thuật chưa chuẩn xác, buộc phải chỉnh sửa hậu kỳ rất nhiều.
Chúng tôi phải cắt nhỏ từng phân đoạn có giọng nhân vật để thực hiện nhân bản (clone) riêng biệt.
Kết quả là tông giọng không ổn định qua từng phân cảnh. Dù là cùng một nhân vật nhưng đôi khi nghe như những người khác nhau.
Dữ liệu học bị giới hạn trong từng đoạn clip ngắn, dẫn đến kết quả đầu ra thiếu tính nhất quán.
Phải xuất file lại vô số lần cho đến khi đạt yêu cầu, và dù vậy, bản lồng tiếng vẫn thiếu đi "cái hồn" của nhân vật.

Tóm lại, thay vì "AI lồng tiếng hộ", thì thực tế lại là "tôi phải dành quá nhiều công sức để hiệu chỉnh cho AI".

v2 là một bước tiến vượt bậc — Không cần can thiệp phòng thu

Với v2, tôi thực sự bị thuyết phục.

Không cần can thiệp thủ công, chỉ sau một lần xuất duy nhất —

AI đã nắm bắt được tông giọng và sắc thái của người nói gốc rất sát.
Diễn xuất (biểu cảm cảm xúc) được tái hiện ở mức cực kỳ ấn tượng.
Mọi công đoạn cắt clip và tạo bản sao thủ công gần như đã được lược bỏ hoàn toàn.

Thành thật mà nói, so với v1, trải nghiệm đã cải thiện vượt bậc.
Hãy nghe thử trong video trên — cảm giác "đơ cứng và máy móc" của AI đã biến mất.

Thiết lập quan trọng — Speaker similarity

Trong menu nâng cao của v2, có một thanh trượt gọi là 'Speaker similarity' (Độ tương đồng giọng nói).
Thanh trượt này điều chỉnh sự cân bằng giữa "độ giống với giọng gốc" vs "độ tự nhiên của ngôn ngữ dịch".

Đối với thử nghiệm lồng tiếng phim này, chúng tôi đã đặt ở giá trị mặc định là 7 (trên thang điểm 0-10).

▲ Thiết lập 7 — Cân bằng giữa sự tự nhiên trong tiếng Việt và âm hưởng gốc

Chúng tôi đã thử nghiệm cùng một phân cảnh ở mức 0 và 10 để so sánh sự khác biệt.

Giá trị	Kết quả
0 (Tự nhiên)	Ngữ điệu diễn xuất đa dạng, tự nhiên như diễn viên chuyên nghiệp. Tuy nhiên, độ giống giọng gốc sẽ giảm nhẹ.
7 (Mặc định)	Sự cân bằng lý tưởng (Mức khuyến nghị: 4~7)
10 (Giữ nguyên)	Gần với giọng gốc nhất, nhưng diễn xuất có thể hơi thiếu tự nhiên.

🔊 Speaker similarity 0 — Tự nhiên nhất

▲ Cài đặt 0 — Ưu tiên sự tự nhiên trong diễn đạt tiếng Việt

Thật bất ngờ, giá trị 0 lại cho kết quả rất tốt.
Dải cảm xúc trong giọng nói rộng hơn, mang lại cảm giác như diễn viên đang thực sự nhập vai.
Dù được chú thích là "ít giống gốc hơn", nhưng về độ trôi chảy và tự nhiên, mức 0 lại mang đến trải nghiệm cảm xúc phong phú hơn hẳn.

🔊 Speaker similarity 10 — Giống giọng gốc nhất

▲ Cài đặt 10 — Theo sát ngữ điệu gốc (có thể làm giọng nói hơi thiếu linh hoạt)

Ngược lại, ở mức 10, cách diễn đạt khá cứng nhắc.
Do cố gắng bám sát từng cao độ của người gốc, tiếng Việt đôi khi trở nên phẳng và thiếu sự linh hoạt vốn có của ngôn ngữ.

🎬 0 vs 10 — Nghe thử sự khác biệt

▲ So sánh cùng một phân cảnh với 0 (Ưu tiên tự nhiên) và 10 (Ưu tiên giọng gốc)

Bạn có thấy sự khác biệt rõ rệt không?
Tóm lại: Giá trị càng thấp (gần 0) thì diễn xuất càng phong phú và tự nhiên.
Giá trị càng cao (10) thì càng bám sát ngữ điệu gốc, dẫn đến rủi ro máy móc.
Với các nội dung chú trọng cảm xúc, mức thấp là lựa chọn tối ưu. Tôi khuyên dùng trong khoảng 4~7 tùy vào tính chất nội dung.

Lưu ý nhỏ — Kiểm tra thuật ngữ chuyên ngành

Chất lượng dịch tự động tốt hơn mong đợi. Tuy nhiên, các danh từ riêng vẫn cần kiểm tra thủ công.

Ví dụ trong "Thanh Gươm Diệt Quỷ", khái niệm 'Oni (鬼)' trong bản dịch tiếng Việt chính thức được gọi là 'Quỷ'.
Đôi khi công cụ dịch nhầm thành 'Yêu quái' hoặc các từ khác. 😅

Dù nghĩa vẫn hiểu được, nhưng fan cứng sẽ dễ dàng nhận ra. Vì vậy, việc rà soát bản dịch và chỉnh sửa thuật ngữ vẫn là quy trình cần thiết để sản phẩm hoàn hảo nhất.

💡 Lưu ý: v2 hiện đã được phát hành chính thức. Trong tương lai, bạn có thể chỉnh sửa trực tiếp phụ đề ngay trong Dubbing Studio một cách dễ dàng hơn.

Ý nghĩa thực sự — Sự thay đổi của thị trường lồng tiếng

Việc đạt được chất lượng này chỉ với vài lần bấm nút thực sự là một bước ngoặt.

Thị trường lồng tiếng truyền thống sẽ thay đổi. So với chi phí và thời gian sản xuất chuyên nghiệp, khoảng cách về hiệu quả đang bị rút ngắn đáng kể.
Và đối với nhà sáng tạo nội dung, đây là một tin cực vui.
Bây giờ, bạn có thể vươn ra toàn cầu bằng chính giọng nói của mình mà không cần quy trình tốn kém.

Nếu bạn đang nghiêm túc với các kênh YouTube toàn cầu, v2 là công cụ thiết yếu để không bị tụt hậu.

Trải nghiệm ngay

Hiện tại, ElevenLabs cung cấp 30 phút lồng tiếng miễn phí cho 7 ngày đầu tiên đối với gói Creator trở lên (Starter: 15 phút, Free: 1 phút).
Bạn hoàn toàn có thể sử dụng dung lượng này để test thử với các đoạn video như "Chuyến tàu vô tận" mà chúng tôi đã thực hiện.

🎬 Trải nghiệm Dubbing v2 miễn phí

※ Link trên là link liên kết chính thức của Sonetho (không phát sinh chi phí thêm).

📚 Bài viết nên đọc thêm

Ra mắt ElevenLabs Dubbing v2! — Hỗ trợ 90+ ngôn ngữ, "Giữ nguyên diễn xuất gốc"

Thông báo chính thức · Tổng hợp về v2

Lồng tiếng hoạt hình: 3 phương pháp nhân bản (Clip vs Track vs IVC)

Mẹo hay ElevenLabs · So sánh với nhân bản thủ công v1

Hướng dẫn toàn diện về ElevenLabs Dubbing: Cách dịch và lồng tiếng tự động (v1)

Mẹo hay ElevenLabs · Quy trình làm việc v1

🚀 Lời kết

Cảm giác "AI giả tạo" đã giảm hẳn trên v2. Dù vẫn cần con người kiểm soát tiểu tiết như tên riêng, nhưng điểm xuất phát đã hoàn toàn khác biệt.
Kênh của bạn giờ đây đã sẵn sàng xóa bỏ rào cản biên giới — bằng chính giọng nói của bạn!

Chúc bạn luôn có những sản phẩm sáng tạo tuyệt vời!
Sonetho ⚡