"Chỉ cần tải lên một tấm ảnh, viết vài dòng kịch bản… và người trong ảnh thật sự cất tiếng nói?"
Cho tới giờ, ElevenLabs vẫn là công ty chuyên tạo ra 'giọng nói'.
Nhưng lần này, họ bắt đầu tạo ra cả 'khuôn mặt'.
Đây là câu chuyện về Avatars (avatar), tính năng cho ra video AI nói chuyện chỉ với một kịch bản.
Xin chào, đây là Sonetho. ⚡
Gần 3 năm qua, ngày nào chúng tôi cũng mày mò thuần hóa ElevenLabs,
và hôm nay, chúng tôi mang đến một tính năng nóng hổi vừa được công bố chính thức vào giữa tháng 6 năm 2026, đó là Avatars (avatar).
Nói ngắn gọn trước nhé.
Giờ đây, ngay trong ElevenLabs, bạn có thể tạo trọn vẹn một 'video người nói chuyện'.
Tải ảnh lên để tạo nhân vật AI, viết kịch bản, chọn giọng nói,
→ thế là nhân vật đó nói chuyện với khẩu hình môi khớp chính xác từng chữ.
Nếu bạn là creator, hẳn từng nghe qua HeyGen, Synthesia (dịch vụ video avatar AI biết nói).
Giờ thì 'ông trùm giọng nói' ElevenLabs cũng nhảy vào sân chơi này.
Hôm nay, chúng ta sẽ mổ xẻ tận gốc theo cách dễ hiểu nhất cho người mới: nó là gì, dùng ra sao, và khác gì so với các dịch vụ cũ!
👉 Bắt đầu với ElevenLabs Avatar →
🤔 Một công ty âm thanh sao đột nhiên làm 'khuôn mặt'?
Trước tiên hãy làm rõ vài thuật ngữ cho dễ hiểu.
💡 Hộp thuật ngữ hiểu ngay trong một nốt nhạc
Avatars (avatar) = 'nhân vật AI của riêng bạn' được tạo từ ảnh hoặc văn bản. Tạo một lần là tái sử dụng được cho vô số video.
Talking-head = video 'khuôn mặt biết nói', kiểu một người nhìn vào màn hình và nói chuyện, rất phổ biến trên YouTube và quảng cáo.
Lip-sync (đồng bộ môi) = công nghệ khớp khẩu hình môi sao cho ăn khớp tự nhiên với giọng nói.
ElevenCreative = không gian sản xuất nội dung của ElevenLabs. Tính năng avatar lần này nằm trong menu 'Image & Video (ảnh và video)' ở đó.
Vũ khí thực sự của ElevenLabs, dù ai nói gì đi nữa, vẫn là 'giọng nói'.
Họ đang ở đỉnh cao thế giới về TTS (công nghệ biến chữ viết thành giọng người) và voice clone (nhân bản giọng nói).
Nhưng những người làm video lại gặp phải sự bất tiện thế này.
Tạo giọng nói ở ElevenLabs,
rồi tải lại file âm thanh đó lên một dịch vụ khác (như HeyGen),
và khớp khẩu hình môi ở đó… việc chuyển file qua lại (handoff) này khá phiền phức.
Avatar giải quyết trọn vẹn các bước này trong cùng một chỗ.
Giọng nói, khuôn mặt, khớp môi, tất cả gói gọn một lần ngay trong ElevenLabs.
Không phải công ty âm thanh đi làm khuôn mặt, mà là bức tranh 'nối liền mạch từ giọng nói đến video'.
⚙️ Cách hoạt động: bước 'export âm thanh' biến mất hoàn toàn
Lần ra mắt avatar này có một câu chốt quan trọng.
Đó là "Text to Speech được tích hợp trực tiếp vào prompt island (màn hình nhập lệnh)".
Nghe có vẻ khó, nhưng ý nghĩa rất đơn giản.
💡 Nói nôm na là
Ngay tại chỗ bạn nhập kịch bản (prompt island = bảng nhập lệnh) đã có sẵn tính năng tạo giọng nói đi kèm.
Nhờ đó, giọng nói (âm thanh) và video khớp môi (lip-sync) được tạo 'cùng một lúc'.
Hoàn toàn không cần phải export file âm thanh riêng rồi chuyển sang nơi khác.
Còn một điểm nữa.
Việc ElevenLabs tự sở hữu 'phần tạo giọng nói' chính là một lợi thế lớn.
Vì công nghệ tạo giọng nói (voice model) và công nghệ khớp môi (lip-sync model) cùng chạy chung dưới một mái nhà,
nên theo công bố chính thức, độ đồng bộ (timing giữa môi và tiếng) chính xác hơn so với cách lấy âm thanh từ bên ngoài về rồi mới khớp môi.
Nghĩa là giảm bớt sự lệch pha khó chịu kiểu môi đang mấp máy "xin" mà tiếng lại bật ra "chào".
📌 Ghi chú của biên tập: model lip-sync là 'do bạn' chọn ⚡
ElevenLabs gom nhiều công nghệ lip-sync xuất sắc vào một nơi,
và cho phép bạn tự chọn model lip-sync mong muốn ngay trên màn hình tạo (cũng có giá trị mặc định).
Điểm mấu chốt là mỗi model có chất lượng, độ phân giải tối đa và 'số credit mỗi giây' khác nhau. Đã tổng hợp ngay trong bảng đo thực tế bên dưới.
🎬 Làm theo từng bước: từ tấm ảnh đến video biết nói
Quy trình sử dụng thực tế đơn giản hơn bạn nghĩ.
Tổng hợp theo hướng dẫn chính thức thì như sau.
Bước 1: Tạo avatar (nhân vật AI của riêng bạn)
Trong menu Image & Video của ElevenCreative, nhấn 'New (tạo mới)' ở khu vực Avatar.
Sau đó tạo nhân vật theo một trong hai cách.
Tải ảnh lên: tải 3~5 tấm ảnh nhiều góc độ của cùng một người thì kết quả sẽ ổn định.
(Chỉ tải 1 tấm thì kết quả có thể chập chờn không đều.)Mô tả bằng chữ: không cần ảnh, bạn vẫn có thể mô tả "người như thế này" bằng prompt văn bản để tạo.
Nhân tiện, không chỉ con người mà cả nhân vật hoạt hình, động vật cũng có thể làm avatar. (Không phải người vẫn OK)
Bước 2: Đặt tên và chỉ định giọng mặc định
Đặt tên cho avatar, nếu cần thì chọn giọng mặc định (default voice), rồi nhấn 'Create Avatar' để chốt nhân vật.
Mỗi avatar đều được gắn sẵn một giọng mặc định, nhưng bạn có thể đổi bất cứ lúc nào.
Bước 3: Tạo video biết nói
Chọn avatar đã tạo và nhấn 'Create Lip Sync (tạo lip-sync)'.
Rồi ① chọn phong cách → ② chọn giọng nói (giọng trong thư viện hoặc giọng bạn đã nhân bản) → ③ nhập kịch bản → ④ nhấn 'Generate speech' để tạo giọng và nghe thử.
Bước 4: Tạo video
Nếu cần, thêm một chút prompt hình ảnh để định hình không khí cho video, rồi nhấn 'Generate' là xong.
Video khớp môi sẽ hoàn thành cùng với giọng nói.
💡 Xem trước credit rồi hẵng nhấn nhé
Video avatar tuân theo cấu trúc credit 'Image & Video' sẵn có.
Chi phí thay đổi tùy theo model lip-sync đã chọn, độ phân giải đầu ra và độ dài video.
May là credit dự kiến được hiển thị sẵn trên màn hình trước khi bạn nhấn nút tạo. Xem rồi hẵng nhấn!
(Độ phân giải hỗ trợ 480p, 720p, 1080p, nhưng theo một số tiêu chí thì 'độ dài video' ảnh hưởng đến credit nhiều hơn độ phân giải hay tỉ lệ khung hình.)
Vậy nên chúng tôi đã bê nguyên credit mỗi giây của từng model lip-sync từ màn hình chọn model thực tế tháng 6 năm 2026. (Con số càng thấp càng rẻ)
Model lip-sync | Credit mỗi giây | Đặc điểm (mô tả chính thức) |
|---|---|---|
Veed Lipsync | 41 | Lip-sync video nhanh và rẻ |
Sync Lipsync 2 Pro | 661 | Chất lượng studio cho nội dung thực tế, hoạt hình, AI |
Creatify Aurora | 848 | Chất lượng cao nhất từ ảnh, lip-sync có dẫn hướng |
Sync 3 | 1,053 | Trí tuệ thị giác, chất lượng chuyên nghiệp |
HeyGen Avatar 4 (mới) | 1,212 | Chuyển động biểu cảm, tối đa 1080p |
Veed Fabric | 1,212 | Chân thực với mọi loại ảnh, tối đa 720p |
OmniHuman 1.5 | 1,267 | Lip-sync chân thực, hỗ trợ khuôn mặt phi nhân |
⚠️ Cái bẫy 'mỗi giây', chi phí tỉ lệ thuận với độ dài
Vì tính theo credit mỗi giây nên video càng dài chi phí càng tăng vù vù.
Ví dụ) video 30 giây với Sync 3 (1,053/giây) → khoảng 31,600 credit. Còn 1 phút thì khoảng 63,000 credit.
Tính theo gói Creator (khoảng 120,000 credit mỗi tháng) thì cỡ 3~4 video 30 giây. Thành thật mà nói là không dư dả lắm.
Đổi lại, model rẻ như Veed Lipsync (41/giây) chỉ tốn khoảng 1,230 credit cho 30 giây, cùng số credit làm được gấp hàng chục lần.
Đây là sự đánh đổi giữa chất lượng và chi phí.Thêm nữa, credit tạo avatar (ảnh) được tính riêng. Credit mỗi giây ở trên là chi phí cho phần 'video biết nói (lip-sync)'.
※ Credit mỗi giây là giá trị đo thực tế trên màn hình chọn model tháng 6 năm 2026. Chính sách model và giá thay đổi liên tục, nên hãy nhớ kiểm tra credit dự kiến trên màn hình ngay trước khi tạo.
🪪 Tạo một lần dùng mãi: danh tính bền vững & biến thể 'Styles'
Sức mạnh thực sự của avatar nằm ở 'khả năng tái sử dụng'.
Avatar đã tạo sẽ mang một 'danh tính cố định (persistent identity)'.
Nói đơn giản, bạn có thể cho nhân vật đó xuất hiện trong nhiều video với cùng một khuôn mặt không đổi.
Không còn cảnh khuôn mặt nhân vật khác đi một chút ở mỗi video.
Đi kèm với đó là tính năng 'Styles (phong cách)'.
Trong khi giữ nguyên danh tính cốt lõi của cùng một nhân vật, bạn có thể tạo các biến thể thay đổi những thứ sau.
Góc máy quay (chính diện / nghiêng…)
Trang phục (vest / thường ngày…)
Bối cảnh và ánh sáng
Ví dụ, bạn tạo sẵn một 'người dẫn cho thương hiệu',
rồi xuất ra bản vest nền văn phòng, bản thường ngày ngoài trời, bản cận cảnh, tất cả cùng một người.
Avatar và style này luôn được giữ nguyên bất kể tạo bao nhiêu lần, nên tái sử dụng được cho nhiều dự án.
📌 Vì sao điều này quan trọng ⚡
Dù là kênh YouTube hay quảng cáo, 'cùng một khuôn mặt' phải xuất hiện đều đặn thì người xem mới nhớ thương hiệu.
Quay đi quay lại hoặc mỗi lần lại dùng một nhân vật AI khác thì tính nhất quán sẽ vỡ vụn.
Avatar cho bạn một 'diễn viên tạo một lần dùng cả đời'.
🔁 'Sản xuất hàng loạt' với Flows: đúc quảng cáo UGC một loạt
Từ đây trở đi hơi nâng cao một chút, nhưng với marketer và người làm UGC thì đây là mỏ vàng.
💡 Chỉ hai thuật ngữ thôi
Flows (luồng) = tính năng tự động hóa, nối các tác vụ chạy lần lượt như một băng chuyền tự động.
Quảng cáo UGC = quảng cáo kiểu review 'như do chính người dùng tự quay'. Dạo này là format ăn khách nhất trên Instagram, TikTok, Shorts.
Lần này, Flows được bổ sung thêm 'Avatar node (khối avatar)'.
Cắm khối này vào là bạn nối được việc tạo video avatar vào pipeline tự động.
Bê nguyên luồng ví dụ chính thức thì như sau.
① Nhập product brief (mô tả sản phẩm ngắn gọn)
② AI tạo kịch bản
③ Tạo voiceover (giọng thuyết minh)
④ Tạo video avatar nói kịch bản đó
Và bạn chạy việc này một loạt (batch) theo từng sản phẩm, từng ngôn ngữ, từng hook.
Ở đây, 'hook' nghĩa là câu mở đầu giữ chân người xem trong 3 giây đầu của video.
Chẳng hạn, chỉ cần đổi 5 hook khác nhau ("Không biết cái này là thiệt đó", "Xem 3 giây thôi"…) là bạn đúc ra 5 biến thể quảng cáo cùng một lúc.
Cực hợp cho việc chạy thử nhiều phiên bản để xem "câu mở đầu nào ăn khách" kiểu quảng cáo Shorts, Reels.
Vì chẳng cần phải quay lại từ đầu mỗi lần nữa.
⚖️ Khác gì so với HeyGen, Synthesia? (So sánh thẳng thắn)
"Đã có HeyGen, Synthesia rồi thì sao lại dùng ElevenLabs?"
Câu hỏi rất chính đáng. Để tôi điểm đúng phần cốt lõi. (Giá dựa trên tài liệu chính thức và so sánh, có thể thay đổi theo khuyến mãi và chu kỳ thanh toán.)
Dịch vụ | Điểm mạnh / Cách tính phí | Hợp khi nào |
|---|---|---|
ElevenLabs Avatar | Giọng nói là nghề chính → âm thanh + khuôn mặt trong một chỗ. Dựa trên credit | Khi chất lượng giọng là ưu tiên số một, giọng đa ngôn ngữ |
Synthesia | Tính phí theo 'phút' nên dễ tính ngân sách. Avatar được đánh giá chân thực | Đào tạo doanh nghiệp, video nội bộ |
HeyGen | Dựa trên credit. Mạnh ở khoản dịch video sẵn có sang nhiều ngôn ngữ | Marketing, dịch nội dung ra nước ngoài |
Tóm gọn điểm khác biệt cốt lõi trong một câu thì như thế này.
ElevenLabs là 'tích hợp ưu tiên giọng nói'.
Một công ty vốn có giọng nói thuộc hàng đỉnh thế giới, nay gắn khuôn mặt (lip-sync) lên giọng đó để bạn tạo ra trong một màn hình, một lần.
Không cần chuyển âm thanh qua lại, và độ đồng bộ giữa giọng với môi cũng chính xác hơn, đó là điểm mạnh.
Điểm qua chút cảm nhận về giá thì như sau. (Tính đến tháng 6 năm 2026)
HeyGen: tính theo credit. Tính trên tính năng avatar tiêu biểu (Avatar IV) thì khoảng $1 mỗi phút (gói Creator).
Synthesia: thuê bao theo phút. Quy đổi theo gói năm thì khoảng $1.8~2.1 mỗi phút.
ElevenLabs Avatar: tùy model lip-sync bạn chọn mà dao động lớn, khoảng $0.45 mỗi phút (rẻ) đến $13.8 (cao cấp) (tham khảo bảng credit mỗi giây ở trên).
💰 Vậy rốt cuộc cái nào rẻ hơn? Đã tính cạn tàu ráo máng ở phần 2
Thành thật mà nói, nếu làm nhiều video chất lượng cao thì nền tảng chuyên dụng (HeyGen, Synthesia) có thể rẻ hơn tính theo phút,
còn nếu là thỉnh thoảng, số lượng ít, workflow tích hợp thì ElevenLabs có lợi.
Chúng tôi đã mổ xẻ tận cùng điểm hòa vốn phân định bởi "một tháng làm bao nhiêu phút" bằng bảng chi phí thực mỗi phút.
→ [Đối đầu chi phí avatar] Thuê bao trực tiếp vs ElevenLabs, xem ai thực sự rẻ hơn →
🚨 Nói thẳng, vẫn còn những điều chưa chắc chắn
Độ dài video tối đa tạo được trong một lần ở từng model và credit cho chính việc tạo avatar (ảnh) thay đổi tùy model và thiết lập, nên chưa được công bố rõ ràng thành con số cụ thể.
(Độ phân giải tối đa cũng khác nhau theo model. Như bảng trên, có model chỉ đến 720p, có model lên đến 1080p, lẫn lộn.)
Đổi lại, chi phí chính xác được hiển thị dưới dạng credit dự kiến trên màn hình ngay trước khi tạo, nên cứ xem đó rồi nhấn là được.
Ngoài ra, ở thời điểm ra mắt thì chưa cung cấp API (kết nối bên ngoài) và dự kiến sẽ có sau.
🙋 Vậy thì, hợp với ai?
Theo Lab thấy thì đặc biệt mạnh với những người sau.
Creator Shorts, Reels: vận hành kênh với 'diễn viên AI' nhất quán mà không phải lo lộ mặt.
Marketer quảng cáo UGC, performance: chỉ đổi hook để sản xuất hàng loạt biến thể quảng cáo, A/B test dễ dàng.
Người làm nội dung bài giảng, giáo dục: làm series bài giảng với 'cùng một giảng viên', mở rộng theo môn học và ngôn ngữ.
Người quản lý thương hiệu, mạng xã hội: đều đặn đúc ra nội dung social mà không phải quay mỗi lần.
Người cần video thuyết minh đa ngôn ngữ: kết hợp với giọng đa ngôn ngữ của ElevenLabs để làm video bản địa hóa.
Ngược lại, với những ai muốn xuất video hoàn toàn miễn phí thì vẫn còn tiếc nuối.
Avatar (tạo video) chỉ dùng được trên gói trả phí (gói miễn phí không tạo được video).
May là hiện tại có thể dùng trên tất cả các gói trả phí của ElevenCreative.
❓ Câu hỏi thường gặp
Q. Chỉ cần một tấm ảnh là tạo avatar được ngay không?
Về mặt kỹ thuật thì 1 tấm cũng tạo được, và không cần ảnh, bạn cũng có thể mô tả bằng chữ (prompt văn bản) để tạo.
Tuy nhiên, hướng dẫn chính thức khuyến nghị 3~5 tấm ảnh nhiều góc độ của cùng một người.
Dùng 1 tấm thôi thì khuôn mặt có thể không nhất quán giữa các video. Muốn kết quả ổn định thì hãy tải nhiều tấm lên.
Q. Gói miễn phí có tạo được video avatar biết nói không?
Không. Tạo video avatar chỉ được trên gói trả phí (gói miễn phí bị giới hạn tạo video).
Tuy nhiên, dùng được trên tất cả các gói trả phí của ElevenCreative, và chi phí được trừ vào credit 'Image & Video' sẵn có.
Tùy model, độ phân giải, độ dài video mà thay đổi, và credit dự kiến được hiển thị sẵn trên màn hình trước khi tạo nên cứ xem rồi quyết định.
Q. Có lý do nào để dùng ElevenLabs Avatar thay vì HeyGen, Synthesia không?
Khác biệt lớn nhất là 'giọng nói'.
ElevenLabs vốn lấy TTS và voice clone làm nghề chính, nên mạnh về chất lượng giọng và giọng đa ngôn ngữ.
Cộng thêm việc gắn khuôn mặt (lip-sync) lên đó để tạo video trong một chỗ, một lần mà không phải chuyển âm thanh sang dịch vụ khác chính là điểm mạnh cốt lõi.
Nếu chất lượng giọng là ưu tiên số một, hoặc bạn thường xuyên làm video đa ngôn ngữ, thì rất hấp dẫn.
(Ngược lại, nếu việc quản lý ngân sách theo phút quan trọng thì Synthesia, còn mục đích chính là dịch video sẵn có sang nhiều ngôn ngữ thì HeyGen cũng là lựa chọn tốt.)
Q. Có thể giữ cùng một nhân vật, không để khuôn mặt thay đổi giữa các video không?
Có, đó chính là cốt lõi của avatar.
Avatar đã tạo giữ một danh tính cố định, nên bất kể tạo bao nhiêu lần, nó vẫn xuất hiện với cùng một khuôn mặt trong nhiều video.
Với tính năng 'Styles (phong cách)', bạn còn tạo được biến thể chỉ đổi góc, trang phục, bối cảnh, vừa giữ danh tính vừa dàn dựng đa dạng.
🎁 Lời kết
Tóm lại phần cốt lõi hôm nay một lần nữa nhé.
Avatars = tính năng mới cho ra video, trong đó nhân vật AI tạo từ ảnh hoặc chữ sẽ nói kịch bản với môi khớp chính xác.
Giọng nói và khớp môi trong một màn hình, một lần → không tốn công chuyển âm thanh, đồng bộ chính xác hơn.
Avatar đã tạo tái sử dụng mãi, dùng Styles để biến thể góc, trang phục, bối cảnh.
Với Avatar node của Flows, sản xuất hàng loạt quảng cáo UGC, Shorts theo từng hook, từng ngôn ngữ.
Một số con số như giá, độ dài, model tự chọn… chưa công bố → hãy kiểm tra credit hiển thị trước khi tạo.
'Ông trùm giọng nói' giờ đã nắm cả 'khuôn mặt' trong tay.
Một kỷ nguyên nối liền một mạch từ giọng nói đến video đã mở ra.
Nếu bạn đang dùng gói trả phí, hãy tải vài tấm ảnh lên ngay hôm nay
và tạo thử một diễn viên AI của riêng mình.
Một dòng kịch bản biến thành 'video biết nói', làm thử một lần là cảm nhận được chỉ trong 1 phút!
👉 Bắt đầu với ElevenLabs Avatar →
Hẹn gặp lại các bạn ở bài viết sau với những bí kíp còn hữu ích hơn nữa.
Đây là Sonetho. ⚡