Eleven v3 chốt ngày ra mắt, hỗ trợ 70+ ngôn ngữ — Tóm tắt webinar ElevenLabs tháng 1 trong 5 phút

Tại buổi webinar gần đây, ElevenLabs đã chính thức công bố lộ trình ra mắt mô hình Eleven V3 cùng xác nhận hỗ trợ tiếng Việt, đánh dấu bước tiến đột phá trong việc tối ưu hóa ngôn ngữ địa phương. Sự nâng cấp này giúp ElevenLabs chuyển mình mạnh mẽ thành nền tảng AI tất cả trong một (all-in-one). Không chỉ dừng lại ở khả năng chuyển đổi văn bản thành giọng nói vượt trội, nền tảng còn cung cấp các công cụ sáng tạo nội dung đa năng, giúp người dùng tại Việt Nam dễ dàng tiếp cận công nghệ AI tiên tiến tương tự như việc sử dụng Zalo trong giao tiếp hằng ngày. Với sự hỗ trợ này, các doanh nghiệp và nhà sáng tạo nội dung có thể kỳ vọng vào chất lượng âm thanh tự nhiên, chuẩn xác, từ đó nâng cao hiệu suất công việc và cạnh tranh hiệu quả hơn trên thị trường quốc tế.

Viện nghiên cứu ElevenLabs

 

Xin chào, đây là Viện nghiên cứu ElevenLabs. ⚡

Chúng tôi xin gửi đến các bạn bản tin cập nhật nhanh về sự kiện hội thảo trực tuyến (webinar) của ElevenLabs vừa diễn ra vào ngày 13 tháng 1.

ElevenLabs giờ đây không còn giới hạn ở các dịch vụ "lồng tiếng AI" quen thuộc, mà đang khẳng định vị thế là "nền tảng sáng tạo AI tất-cả-trong-một" (All-in-One AI Creative Platform).

 

Từ Studio 3.0 tích hợp các mô hình video đẳng cấp hàng đầu như Sora 2, Veo 3,

cho đến Scribe v2 với khả năng thấu hiểu ngôn ngữ còn tinh tế hơn cả tai người.

Chúng tôi đã tổng hợp và phân tích chuyên sâu mọi nội dung quan trọng được công bố trong webinar, không bỏ sót bất kỳ chi tiết nào.


 

1. Studio 3.0: Mọi sáng tạo tại một điểm đến

Điểm nhấn đầu tiên chính là Studio 3.0, với cốt lõi là sự "hợp nhất quy trình làm việc".

Giờ đây, bạn không còn cần phải chuyển đổi qua lại giữa nhiều trang web để sản xuất video nữa.

🎥 3 cải tiến đột phá của Studio 3.0

  • Tích hợp các mô hình video hàng đầu: Một sự kết hợp đáng kinh ngạc khi Google Veo 3, OpenAI Sora 2, Kling, và Ideogram — những mô hình tạo video/hình ảnh mạnh mẽ nhất hiện nay — đã có mặt ngay trong ElevenLabs Studio. Bạn có thể sử dụng trực tiếp mà không cần đăng ký thêm bất kỳ dịch vụ nào khác.
  • Timeline "tất-cả-trong-một": Chỉ cần nhập văn bản, hệ thống sẽ tự động tổng hợp [Giọng đọc (TTS) + Hiệu ứng âm thanh (SFX) + Nhạc nền (BGM) + Phụ đề + Video] trên cùng một dòng thời gian.
  • Chỉnh sửa nội tuyến (Inline Editing): Bạn chưa hài lòng với một phân đoạn video hay âm thanh? Không cần làm lại từ đầu, bạn chỉ cần kéo thả để chỉnh sửa trực tiếp ngay tại chỗ.

Đây không chỉ là những tính năng bổ sung đơn thuần.

Đó là thành quả từ sự hợp tác chiến lược giữa ElevenLabs với các "ông lớn" trong ngành như Disney, NVIDIA và Adobe.

 

2. Scribe v2: Độ chính xác áp đảo (So sánh hiệu năng)

Tiếp nối là Scribe v2, công cụ đã cho thấy sức mạnh vượt trội so với các ứng dụng STT (Speech-to-Text) truyền thống.

Đặc biệt, dữ liệu về tỷ lệ lỗi (WER) được công bố thực sự gây ấn tượng mạnh mẽ.

Tên mô hình Tỷ lệ lỗi (WER) Ghi chú
ElevenLabs Scribe v2 2.2% Dẫn đầu thị trường
GPT-4o Transcribe 2.7% -
Gemini 1.5 Pro 3.0% -
Deepgram Nova 3 6.9% -

* Chỉ số càng thấp càng chính xác (Trung bình các ngôn ngữ phổ biến: Anh, Pháp, Tây Ban Nha)

 

Các tính năng "sát thủ" của Scribe v2:

  • Audio Event Tagging: Tự động nhận diện và gắn nhãn văn bản cho các âm thanh phi ngôn ngữ như tiếng cười, tiếng vỗ tay, tiếng bước chân.
  • Smart Diarization: Phân biệt chính xác "ai đang nói" ngay cả trong những cuộc hội thoại chồng chéo.
  • Word-level Timestamp: Ghi dấu thời gian chính xác đến từng mili giây cho mỗi từ, giúp phụ đề khớp hoàn hảo với giọng nói.

 

3. Bảo mật và quy mô cho doanh nghiệp

Các nhà quản lý doanh nghiệp cần đặc biệt lưu tâm thông tin này.

ElevenLabs hiện đã vượt xa quy mô B2C thông thường để trở thành một giải pháp chuyên dụng cho doanh nghiệp (Enterprise Solution).

🔒 Bảo mật và tuân thủ (Security)

  • Chứng chỉ SOC 2 / ISO 27001: Đáp ứng các tiêu chuẩn bảo mật khắt khe nhất toàn cầu.
  • Zero Retention (Chính sách không lưu trữ): Cung cấp tùy chọn không lưu dữ liệu trên máy chủ nếu doanh nghiệp yêu cầu.
  • Tuân thủ GDPR: Tuân thủ nghiêm ngặt các quy định về quyền riêng tư và bảo vệ dữ liệu tại châu Âu.

🤝 Tính năng cộng tác (Collaboration)

  • Hỗ trợ quản lý dự án và quy trình phê duyệt nội bộ dành cho đội ngũ.
  • Phân quyền truy cập chi tiết cho nhân viên và các đơn vị đối tác (agency).

 

4. [Q&A] Giải đáp thắc mắc (Thông tin độc quyền)

Dưới đây là tóm lược các câu hỏi quan trọng nhất từ phiên Q&A.

 

Q. Khi nào thì ra mắt engine V3?
A. Hiện dự án đang ở giai đoạn hoàn thiện cuối cùng. Các bạn có thể đón đợi sự ra mắt vào cuối tháng 1, muộn nhất là trong tháng 2 tới.

 

Q. Người dùng có thể điều chỉnh hơi thở hoặc cao độ (Pitch) không?
A. Có, đây là yêu cầu nhận được sự quan tâm rất lớn. Chúng tôi đang nghiên cứu các tham số cho phép tinh chỉnh (Fine-tune) sâu sau khi tạo kết quả và sẽ sớm cập nhật tính năng này.

 

Q. ElevenLabs có kế hoạch hỗ trợ giao diện tiếng Việt không?
A. Vâng, chúng tôi đang trong lộ trình chuẩn bị và dự kiến triển khai trong năm nay. Bạn sẽ sớm có thể trải nghiệm nền tảng bằng ngôn ngữ mẹ đẻ.


 

Tổng kết: Biến ý tưởng thành hiện thực trong tích tắc

Thông điệp từ buổi webinar hôm nay rất rõ ràng: "Bạn chỉ cần tưởng tượng, còn việc hiện thực hóa hãy để AI đảm nhận."
Kỷ nguyên mà video, giọng nói và âm thanh được tạo ra đồng thời chỉ với một dòng văn bản đã chính thức bắt đầu.

 

Để bắt kịp làn sóng thay đổi này, hãy trải nghiệm Studio 3.0 ngay hôm nay.

 

⚡ Trải nghiệm ElevenLabs Studio 3.0 (Chính thức)

 

Đó là tất cả từ Viện nghiên cứu ElevenLabs. ⚡