Trải nghiệm ElevenLabs GenFM: Liệu có vượt qua Google NotebookLM?

"Biến bài viết của bạn thành podcast bằng chính giọng nói của mình?"
Tính năng đầy tham vọng GenFM của ElevenLabs đã chính thức ra mắt.
Đây được xem là lời thách thức gửi tới cơn sốt 'AI Podcast' mà NotebookLM của Google đã khởi xướng.

Liệu ElevenLabs có thể vượt mặt "gã khổng lồ" Google?
Sonetho đã thử nghiệm và có những đánh giá cực kỳ thẳng thắn cho bạn.

🎯 Dù còn vụng về, 'giọng nói của tôi' là thứ Google không theo kịp

Về độ tự nhiên của cuộc hội thoại, GenFM vẫn còn thua NotebookLM một bậc, nhưng 'tạo podcast bằng giọng nói của tôi (PVC)' là vũ khí riêng của ElevenLabs mà Google tuyệt đối không làm được. Nếu tiếp cận không phải như một thành phẩm hoàn hảo mà như một 'bản nháp', thì ngay bây giờ nó cũng đã đủ dùng tốt rồi.

🎵 Thử tạo bản nháp podcast bằng giọng nói của tôi →

PVC có thể dùng thử ngay cả với gói miễn phí · Để dựng khung kịch bản thì hiện tại vẫn là tốt nhất

Xin chào, chúng mình là Sonetho đây! ⚡

Chủ đề nóng hổi nhất trong cộng đồng AI hiện nay chắc chắn là 'Audio Overview' (Tổng quan âm thanh).

Công nghệ này cho phép bạn "nạp" bất kỳ nội dung nào, sau đó hai nhân vật AI sẽ tự trò chuyện và tóm tắt thông tin đó một cách vô cùng tự nhiên.

Khi Google NotebookLM tạo nên tiếng vang lớn với khả năng hội thoại chân thực đến mức kinh ngạc (kiểu như: "Này, đừng ngắt lời tớ chứ!"),

thì sự đáp trả từ "ông hoàng âm thanh" ElevenLabs đang trở thành tâm điểm của mọi sự chú ý.

Hôm nay, mình sẽ chia sẻ trải nghiệm thực tế sau khi thử nghiệm biến chính bài blog của mình thành một tập podcast.

1. Kỳ vọng lớn: Liệu có thể làm radio bằng giọng mình?

Về khả năng tùy biến, ElevenLabs thực sự chiếm ưu thế. Trong khi Google không cho phép thay đổi giọng nói mặc định, thì tại đây, bạn hoàn toàn có thể sử dụng giọng nói của chính mình (PVC - Professional Voice Cloning) để làm host cho chương trình.

[▼ Truy cập vào Projects → Create a podcast]

Mình đã dán đường dẫn bài viết so sánh 3 nền tảng AI vào và thiết lập host cùng khách mời là 'KKC RADIO' và 'KKC Modern'.

[▼ Dàn lineup podcast: Host David, Khách mời Dan]

2. Tùy chỉnh chi tiết: Đóng vai PD (Đạo diễn sản xuất)

Trong mục Advanced Configuration, mình đã cung cấp các chỉ dẫn cụ thể cho AI.

"Hãy so sánh 3 nền tảng, nhưng nhấn mạnh rằng ElevenLabs dẫn đầu về độ tự nhiên. Hãy dẫn dắt theo phong cách bài đánh giá công nghệ chuyên nghiệp, sắc sảo."

Mọi thứ đều hoàn hảo, mình nhấn nút Generate và chờ đợi kết quả.

3. Kết quả: "Ừm... có chút vấn đề rồi..."

Kết quả đã xuất hiện. Hãy cùng xem qua kịch bản mà AI đã biên soạn.

[▼ Kịch bản và chỉ dẫn do AI tạo]

🎧 Nghe thử kết quả thực tế (GenFM)

(Nhấn nút Play để nghe podcast)

Ưu điểm:

"Ha... (tiếng thở dài)" – AI biết cách chèn các biểu cảm cảm xúc vào đoạn hội thoại.
Nội dung tóm tắt chính xác, bám sát các ý chính trong bài viết.
Sử dụng mô hình V3 (Alpha) nên tông giọng truyền tải khá mượt mà.

Nhược điểm (Điểm trừ đáng kể):

1. Văn phong vẫn mang đậm tính "văn bản"!

Các câu thoại như "À, thì ra là vậy", "Hình như là..." nghe vẫn hơi gượng ép.

Nó còn thiếu những khoảng 'ngắt quãng tự nhiên', 'cười chen ngang' hay 'phản ứng đời thường' mà chúng ta thường thấy ở các đoạn hội thoại thật.

2. "Thiếu khoảng lặng (Vấn đề về nhịp điệu)"

Điều đáng tiếc nhất chính là nhịp độ giữa các lượt thoại. Trong giao tiếp thực tế, con người cần khoảng lặng để suy nghĩ hoặc ngẫm nghĩ, nhưng AI này lại phản hồi gần như ngay lập tức chỉ sau 0.1 giây.

Có lẽ do khả năng xử lý ngắt câu của mô hình V3 Alpha vẫn đang trong quá trình hoàn thiện. Nghe lâu sẽ cảm thấy hơi thiếu cảm xúc. 😅

4. Tổng kết: Google vẫn đang nhỉnh hơn?

Thẳng thắn mà nói, về khía cạnh 'sự tự nhiên trong hội thoại (Banter)', Google NotebookLM vẫn đang làm tốt hơn một bậc.

GenFM của ElevenLabs cực kỳ tuyệt vời cho các chương trình 'podcast truyền tải kiến thức', nhưng nếu bạn mong chờ những màn 'tán gẫu đời thường', có thể bạn sẽ thấy hơi hụt hẫng.

💡 Lời khuyên khi sử dụng:

Dùng làm bản nháp: Cực kỳ hiệu quả để lên khung kịch bản nhanh.
Chỉnh sửa thủ công là chìa khóa: Hãy chủ động thêm vào các từ cảm thán như "Thật á?", "Đỉnh quá!", "Chắc chắn rồi" vào kịch bản, kết quả sẽ tự nhiên hơn rất nhiều.

Lời kết: Mong chờ phiên bản chính thức của V3!

Yếu tố then chốt ở đây chính là 'độ tự nhiên'. Khi mô hình V3 hoàn thiện chính thức ra mắt, mình tin rằng AI sẽ hiểu ngữ cảnh sâu sắc hơn mà không cần phải chèn các thẻ [laugh], [sigh] thủ công nữa.

"Đội ngũ ElevenLabs ơi, mau cho ra bản V3 chính thức đi, mình đang chờ đợi rất nóng lòng đây..." 😵‍💫

Dù sao thì, nếu bạn muốn làm thử một bản podcast nháp bằng chính giọng nói của mình? Hãy trải nghiệm ngay hôm nay.

🚀 Nhận ưu đãi và bắt đầu làm Podcast với ElevenLabs

Ở bài tới, mình sẽ chia sẻ 'bí kíp kết hợp: Google (kịch bản) + ElevenLabs (giọng nói)' để khắc phục những điểm yếu hiện tại. Đừng bỏ lỡ nhé!

📂 [Phụ lục] Tải về kết quả Podcast mẫu

Nghe thử đoạn hội thoại mang tính "thử nghiệm" này xem sao nhé.