"Tek bir fotoğraf yükledim, bir senaryo yazdım… ve o kişi gerçekten konuşmaya başladı?"
ElevenLabs bugüne kadar 'ses' üreten bir şirketti.
Ama bu kez işin içine 'yüz' de girdi.
Sadece senaryoyu yazdığınızda konuşan bir yapay zeka insan videosunun tek seferde çıktığı, Avatars (Avatarlar) özelliğinden bahsediyoruz.
Merhaba, ben Sonetho. ⚡
Neredeyse 3 yıldır her gün ElevenLabs'i didik didik inceledikten sonra,
bugün Haziran 2026 ortasında resmen duyurulan taptaze bir özelliği, Avatars (Avatarlar)'ı getirdik.
Önce tek cümleyle özetleyeyim.
Artık ElevenLabs'in içinde 'konuşan insan videosu'nu baştan sona hazırlayabiliyorsunuz.
Bir fotoğraf yükleyip yapay zeka destekli bir karakter oluşturuyor, senaryoyu yazıp sesi seçiyorsunuz
→ ve o karakter dudak hareketlerini tam tutturarak konuşan bir video ortaya çıkıyor.
İçerik üreticilerinin çoğunun en az bir kez duyduğu HeyGen ve Synthesia (konuşan yapay zeka avatar video hizmetleri)'yı düşünebilirsiniz.
İşte o alana, 'ses işinin patronu' ElevenLabs girdi.
Bugün bunun ne olduğunu, nasıl kullanıldığını ve mevcut hizmetlerden ne farkı olduğunu yeni başlayanların anlayacağı bir dille en ince ayrıntısına kadar inceleyeceğiz!
👉 ElevenLabs Avatarlar'a başla →
🤔 Ses şirketi neden birden 'yüz' işine girdi?
Önce terimleri basitçe açıklayalım.
💡 Tek bakışta anlaşılan terimler kutusu
Avatars (Avatarlar) = Fotoğraf ya da yazıyla oluşturduğunuz 'size özel yapay zeka karakteri'. Bir kez oluşturunca birçok videoda tekrar tekrar kullanabilirsiniz.
Talking-head (konuşan baş) = Bir kişinin ekrana bakıp konuştuğu, YouTube ve reklamlarda sık görülen 'konuşan yüz' videosu.
Lip-sync (dudak senkronu) = Sese uygun olarak dudak hareketlerini doğal biçimde eşleştiren teknoloji.
ElevenCreative = ElevenLabs'in içerik üretim alanı. Bu yeni avatar özelliği oradaki 'Image & Video (Görsel ve Video)' menüsüne eklendi.
ElevenLabs'in asıl silahı, kim ne derse desin, 'ses'tir.
Yazıyı insan sesine çeviren teknoloji (TTS) ve ses klonlamada (ses kopyalama) dünyanın en iyi seviyesinde.
Ama video üretenler şöyle bir sıkıntı yaşıyordu.
ElevenLabs'te sesi üretip,
o ses dosyasını başka bir hizmete (HeyGen gibi) yeniden yükleyip,
orada dudak hareketlerini eşleştiriyordu… İşte bu dosyayı oradan oraya taşıma işi (handoff) epey zahmetliydi.
Avatarlar bu adımları tek bir yerde, baştan sona çözüyor.
Ses de, yüz de, dudak eşleştirme de → hepsi ElevenLabs'in içinde, tek seferde.
Yani ses şirketi yüz üretmeye başlamadı; aslında 'sesten videoya kadar olan yolu kesintisiz birleştirme' tablosu çiziyor.
⚙️ Nasıl çalışıyor: 'sesi dışa aktarma' adımı tamamen ortadan kalktı
Bu avatar duyurusunun can alıcı bir cümlesi var.
O da şu: "prompt island (komut ekranı) içine Text to Speech doğrudan gömüldü".
Kulağa zor gelse de anlamı çok basit.
💡 Kısaca söylemek gerekirse
Senaryoyu yazdığınız o alanın (prompt island = komutları yazdığınız giriş paneli) içinde, ses üretme özelliği de birlikte yer alıyor demek.
Yani ses ile dudağı eşleştirilmiş video (lip-sync) 'tek seferde birlikte' üretiliyor.
Ses dosyasını ayrıca dışa aktarıp (export) başka bir yere taşımanıza hiç gerek yok.
Bir şey daha var.
ElevenLabs'in 'ses üreten kısma doğrudan sahip olması, burada büyük bir avantaja dönüşüyor.
Ses üretme teknolojisi (voice model) ile dudak eşleştirme teknolojisi (lip-sync model) aynı çatı altında birlikte çalıştığı için,
resmi duyuruya göre bu yöntem, dışarıdan ses alıp dudağı eşleştirmeye kıyasla senkronu (dudak ile sesin zamanlamasını) çok daha iyi tutturuyor.
Dudak "merhaba" derken sesin "nasılsın" demesi gibi o ince kayma azalıyor yani.
📌 Editör notu: lip-sync modelini 'ben' seçiyorum ⚡
ElevenLabs, birçok güçlü lip-sync teknolojisini tek bir yerde topladı
ve üretim ekranında istediğiniz lip-sync modelini doğrudan seçebilmenizi sağladı (varsayılan bir seçenek de sunuluyor).
İşin püf noktası şu: her modelin kalitesi, maksimum çözünürlüğü ve 'saniye başına kredisi' farklı. Hemen aşağıdaki ölçüm tablosunda hepsini topladım.
🎬 Adım adım: fotoğraftan konuşan videoya kadar
Gerçek kullanım akışı sandığınızdan daha basit.
Resmi rehbere göre özetlersek şöyle.
1. Adım: Avatar (size özel yapay zeka karakteri) oluşturun
ElevenCreative'in Image & Video menüsünde, Avatar bölümündeki 'New (Yeni Oluştur)' butonuna basın.
Sonra şu iki yoldan biriyle karakteri oluşturun.
Fotoğraf yükleme: Aynı kişiye ait farklı açılardan 3-5 fotoğraf yüklerseniz sonuç daha tutarlı olur.
(Tek fotoğraf yüklerseniz sonuç değişken çıkabilir.)Yazıyla tarif etme: Fotoğraf olmadan, metin komutuyla "şöyle biri" diye tarif ederek de oluşturabilirsiniz.
Bu arada sadece insan değil, karakter ve hayvan da avatar olarak oluşturulabiliyor. (İnsan olmasa da olur)
2. Adım: İsim verin ve varsayılan sesi belirleyin
Avatara bir isim verin, gerekirse varsayılan sesi (default voice) seçin ve 'Create Avatar' ile karakteri kesinleştirin.
Her avatara önceden varsayılan bir ses atanır ama istediğiniz zaman değiştirebilirsiniz.
3. Adım: Konuşan videoyu oluşturun
Oluşturduğunuz avatarı seçip 'Create Lip Sync (Lip Sync Oluştur)' butonuna basın.
Ardından ① stili seçin → ② sesi seçin (kütüphane sesi ya da kendi klonladığınız ses) → ③ senaryoyu girin → ④ 'Generate speech' ile sesi üretip ön dinleme yapın.
4. Adım: Üretin
Gerekirse videonun atmosferini belirleyen bir görsel komutu hafifçe ekleyip 'Generate' butonuna basın, bu kadar.
Dudağı eşleştirilmiş video, sesiyle birlikte hazır olur.
💡 Krediyi önceden görüp öyle basın
Avatar videosu, mevcut 'Image & Video' kredi yapısını takip eder.
Maliyet; seçtiğiniz lip-sync modeline, çıktı çözünürlüğüne ve video süresine göre değişir.
İyi haber: üret butonuna basmadan önce ekranda tahmini kredi gösteriliyor. Görüp öyle basın!
(Çözünürlük 480p, 720p ve 1080p destekliyor; ancak bazı ölçütlere göre çözünürlük ve en-boy oranından çok 'video süresi' krediyi daha çok etkiliyor.)
Bu yüzden Haziran 2026'daki gerçek model seçim ekranından her lip-sync modelinin saniye başına kredisini olduğu gibi aktardım. (Sayı ne kadar düşükse o kadar ucuz)
Lip-sync modeli | Saniye başına kredi | Özellik (resmi açıklama) |
|---|---|---|
Veed Lipsync | 41 | Hızlı ve ekonomik video lip-sync |
Sync Lipsync 2 Pro | 661 | Gerçek çekim, animasyon ve yapay zeka içeriği için stüdyo kalitesi |
Creatify Aurora | 848 | Görselden en yüksek kalite, yönlendirmeli lip-sync |
Sync 3 | 1,053 | Görsel zeka, profesyonel kalite |
HeyGen Avatar 4 (yeni) | 1,212 | İfade dolu hareket, en fazla 1080p |
Veed Fabric | 1,212 | Her türlü görselde gerçekçi, en fazla 720p |
OmniHuman 1.5 | 1,267 | Gerçekçi lip-sync, insan dışı yüz desteği |
⚠️ 'Saniye başına' tuzağı, süreyle doğru orantılı artar
Saniye başına kredi olduğu için video uzadıkça maliyet de hızla yükselir.
Örn) Sync 3 (1,053/saniye) ile 30 saniyelik video → yaklaşık 31,600 kredi. 1 dakika ise yaklaşık 63,000 kredi.
Creator planı (ayda yaklaşık 120,000 kredi) baz alınırsa 30 saniyelik 3-4 video demek. Açıkçası pek bol değil.
Buna karşılık Veed Lipsync (41/saniye) gibi ucuz modeller 30 saniyede yaklaşık 1,230 kredi tutar, aynı krediyle onlarca kat fazla video üretirsiniz.
Kalite ile maliyet arasında bir denge var yani.Üstüne, avatar (görsel) üretim kredisi ayrıdır. Yukarıdaki saniye başına krediler sadece 'konuşan video (lip-sync)' kısmının maliyeti.
※ Saniye başına krediler, Haziran 2026 model seçim ekranındaki ölçüm değerleridir. Model ve fiyat politikası sık sık değişir, bu yüzden üretimden hemen önce ekrandaki tahmini krediyi mutlaka kontrol edin.
👉 Kendi avatarını oluşturmayı dene →
🪪 Bir kez oluştur, sürekli kullan: kalıcı kimlik ve 'stil' varyasyonları
Avatarın asıl güçlü yanı 'tekrar kullanım'dır.
Bir kez oluşturduğunuz avatar, 'sabit bir kimliğe (persistent identity)' sahip olur.
Yani basitçe, oluşturduğunuz o karakteri birçok videoda hep aynı yüzle sahneye çıkarabilirsiniz.
Her videoda yüzün hafifçe değişmesi gibi bir kaza yaşanmaz.
Buna bir de 'Styles (Stiller)' özelliği ekleniyor.
Aynı karakterin çekirdek kimliğini olduğu gibi koruyup, şunları değiştirdiğiniz varyasyonlar oluşturabilirsiniz.
Kamera açısı (önden / yandan vb.)
Kıyafet (takım elbise / günlük vb.)
Arka plan ve ışıklandırma
Örneğin 'markamızın sunucusu' olarak bir kişi oluşturup,
ofis arka planında takım elbiseli versiyonu, dışarıda günlük versiyonu ve yakın çekim versiyonunu hep aynı kişiyle üretip kullanabilirsiniz.
Bu avatar ve stiller üretim sayısından bağımsız olarak sürekli korunur ve birçok projede yeniden kullanılır.
📌 Bu neden önemli? ⚡
İster YouTube kanalı olsun ister reklam, izleyicinin markayı hatırlaması için 'aynı yüzün' sürekli görünmesi gerekir.
Her seferinde yeniden çekim yapmak ya da her seferinde farklı bir yapay zeka karakteri kullanmak tutarlılığı bozar.
Avatar size 'bir kez oluşturup ömür boyu kullanacağınız' bir oyuncu kazandırır.
🔁 Flows ile 'seri üretim': UGC reklamlarını tek seferde basın
Buradan sonrası biraz daha ileri seviye, ama pazarlamacılar ve UGC üreticileri için tam bir hazine.
💡 Sadece iki terim
Flows (Akışlar) = İşleri otomatik bir bant gibi peş peşe sıralayıp çalıştıran otomasyon özelliği.
UGC reklamı = 'Kullanıcının kendi çektiği izlenimi veren' yorum tarzı reklam. Bugünlerde Instagram, TikTok ve Shorts'ta en çok tutan format.
Bu kez Flows'a yeni bir 'Avatar düğümü (avatar bloğu)' eklendi.
Bunu yerleştirdiğinizde avatar video üretimini otomatik bir hatta bağlayabilirsiniz.
Resmi örnek akışı olduğu gibi aktarırsak şöyle.
① Ürün brief'i (kısa ürün açıklaması) girilir
② Yapay zeka senaryoyu üretir
③ Seslendirme (anlatım sesi) üretilir
④ Avatarın o senaryoyu konuştuğu video üretilir
Sonra bunu ürün bazında, dil bazında ve hook bazında topluca (batch) çalıştırırsınız.
Buradaki 'hook', videonun başındaki ilk 3 saniyeyi yakalayan giriş cümlesi demek.
Örneğin sadece hook'u 5 farklı versiyona çevirerek ("Bunu bilmezsen kaybedersin", "Sadece 3 saniye izle" gibi) tek seferde 5 farklı reklam varyasyonu basabilirsiniz.
Shorts ve Reels reklamlarında olduğu gibi "hangi giriş daha çok tutuyor" diye birçok versiyonu deneme işi için biçilmiş kaftan.
Çünkü her seferinde yeniden çekim yapmanıza gerek yok.
⚖️ HeyGen ve Synthesia'dan ne farkı var? (dürüst karşılaştırma)
"Zaten HeyGen ve Synthesia var, neden ElevenLabs?"
Çok haklı bir soru. Sadece can alıcı noktalara değineyim. (Fiyatlar resmi ve karşılaştırma kaynaklarına dayanıyor, promosyon ve ödeme döngüsüne göre değişebilir.)
Hizmet | Güçlü yan / Ödeme şekli | Şu durumda iyi |
|---|---|---|
ElevenLabs Avatarlar | Asıl işi ses → ses ve yüz tek yerde. Kredi tabanlı | Ses kalitesi öncelikse, çok dilli ses |
Synthesia | 'Dakika' bazlı ücretlendirme, bütçe hesabı kolay. Avatar gerçekçiliği iyi anılıyor | Kurumsal eğitim ve şirket içi videolar |
HeyGen | Kredi tabanlı. Mevcut videoyu çok dilli çeviride güçlü | Pazarlama ve yurt dışı içerik çevirisi |
Can alıcı farkı tek cümleyle özetlersek şöyle.
ElevenLabs 'ses öncelikli entegrasyon' sunuyor.
Aslında sesi dünya çapında en iyi seviyede olan bir şirket, o sese yüzü (lip-sync) ekleyip tek ekranda, tek seferde üretmenizi sağladı.
Sesi oradan oraya taşımaya gerek kalmaması ve ses-dudak senkronunun daha hassas olması güçlü yanları.
Fiyat konusuna da hafifçe değinelim. (Haziran 2026 itibarıyla)
HeyGen: Kredi bazlı. Öne çıkan avatar özelliği (Avatar IV) baz alındığında dakika başına yaklaşık $1 (Creator planı).
Synthesia: Dakika bazlı abonelik. Yıllık ödemeye çevrildiğinde dakika başına yaklaşık $1.8~2.1.
ElevenLabs Avatarlar: Seçtiğiniz lip-sync modeline göre dakika başına yaklaşık $0.45 (ucuz) ile $13.8 (premium) arasında, aralık geniş (yukarıdaki saniye başına kredi tablosuna bakın).
💰 Peki sonuçta hangisi daha ucuz? 2. yazıda iyice hesapladım
Açıkçası yüksek çözünürlükte çok üretirseniz özel platformlar (HeyGen, Synthesia) dakika başına daha ucuz olabilir,
ara sıra, az miktarda ya da entegre iş akışı istiyorsanız ElevenLabs avantajlı.
"Ayda kaç dakika üretiyorsun" sorusuyla belirlenen başabaş noktasını, dakika başına gerçek maliyet tablosuyla en ince ayrıntısına kadar hesapladım.
→ [Avatar maliyet kapışması] Doğrudan abonelik vs ElevenLabs, gerçekte hangisi daha ucuz görmeye git →
🚨 Dürüst olalım, henüz belirsiz olan şeyler
Modele göre tek seferde üretilebilecek maksimum video süresi ve avatar (görsel) üretiminin kendi kredisi, model ve ayarlara göre değiştiğinden net biçimde açıklanmış değil.
(Maksimum çözünürlük de modele göre değişiyor. Yukarıdaki tabloda olduğu gibi 720p'ye kadar olan modeller ile 1080p'ye kadar olanlar karışık.)
Yine de net maliyet, üretimden hemen önce ekranda tahmini kredi olarak gösteriliyor, onu görüp basabilirsiniz.
Ayrıca lansman anında API (dış entegrasyon) sunulmuyor, ileride sunulacak.
🙋 Peki kimin işine yarar?
Lab olarak bakınca özellikle şu kişiler için çok güçlü.
Shorts ve Reels üreticileri: Yüzünü göstermek zorunda kalmadan, tutarlı bir 'yapay zeka oyuncusuyla' kanal yönetmek.
UGC reklamcıları ve performans pazarlamacıları: Sadece hook'u değiştirerek reklam varyasyonlarını seri üretip kolay A/B testi yapmak.
Ders ve eğitim içeriği üreticileri: 'Aynı eğitmenle' seri dersleri, ders ve dil bazında genişletmek.
Marka ve sosyal medya yöneticileri: Her seferinde çekim yapmadan sosyal içeriği düzenli olarak üretmek.
Çok dilli tanıtım videosu gerekenler: ElevenLabs'in çok dilli sesiyle birleştirip yerelleştirilmiş video üretmek.
Buna karşılık, videoyu tamamen ücretsiz üretmek isteyenler için durum henüz biraz hayal kırıklığı yaratıyor.
Çünkü Avatar (video üretimi) yalnızca ücretli planlarda kullanılabiliyor (ücretsiz planda video üretilemez).
İyi haber: şu an ElevenCreative'in tüm ücretli planlarında kullanılabilir durumda.
❓ Sık sorulan sorular
S. Tek bir fotoğrafla hemen avatar oluşturabilir miyim?
Teknik olarak tek fotoğrafla da oluşturabilirsiniz, hatta fotoğraf olmadan yazıyla (metin komutuyla) tarif ederek de oluşturmak mümkün.
Ancak resmi rehber, aynı kişiye ait farklı açılardan 3-5 fotoğrafı öneriyor.
Tek fotoğraf kullanırsanız her videoda yüz tutarlı olmayabilir. İstikrarlı sonuç istiyorsanız birkaç fotoğraf yükleyin.
S. Ücretsiz planla da konuşan avatar videosu yapabilir miyim?
Hayır. Avatar video üretimi yalnızca ücretli planlarda mümkün (ücretsiz planda video üretimi kısıtlı).
Ancak ElevenCreative'in tüm ücretli planlarında kullanılabilir ve maliyet, mevcut 'Image & Video' kredisinden düşülür.
Seçtiğiniz model, çözünürlük ve video süresine göre değişir; üretimden önce ekranda tahmini kredi gösterildiği için görüp karar verebilirsiniz.
S. HeyGen veya Synthesia yerine ElevenLabs Avatarlar'ı kullanmam için bir sebep var mı?
En büyük fark 'ses'.
ElevenLabs'in asıl işi TTS ve ses klonlama olduğu için ses kalitesi ve çok dilli ses konusunda güçlü.
Üstüne yüzü (lip-sync) ekleyip, sesi başka bir hizmete taşımadan tek yerde, tek seferde video üretebilmesi can alıcı güçlü yanı.
Ses kalitesi sizin için öncelikse ya da sık sık çok dilli video üretiyorsanız oldukça cazip.
(Tersine, dakika bazlı bütçe yönetimi önemliyse Synthesia, ana amacınız mevcut videoyu çok dilli çevirmekse HeyGen de iyi seçimler.)
S. Her videoda yüz değişmesin, hep aynı kişiyle kullanabilir miyim?
Evet, avatarın can alıcı noktası bu zaten.
Bir kez oluşturduğunuz avatar sabit bir kimliği koruduğu için, üretim sayısından bağımsız olarak birçok videoda aynı yüzle görünür.
'Styles (Stiller)' özelliğiyle sadece açı, kıyafet ve arka planı değiştirdiğiniz varyasyonlar da oluşturabilir, böylece kimlik korunurken farklı sahnelemeler yapabilirsiniz.
🎁 Son söz
Bugünün özetini bir kez daha toparlayalım.
Avatars = Fotoğraf ya da yazıyla oluşturulan yapay zeka karakterinin, senaryoyu dudağını eşleştirip konuştuğu video olarak çıktığı yeni bir özellik.
Ses ile dudak eşleştirme tek ekranda, tek seferde → sesi taşıma derdi yok, senkron daha hassas.
Bir kez oluşturulan avatar sürekli tekrar kullanılır, Styles ile açı, kıyafet ve arka plan varyasyonu yapılır.
Flows'un Avatar düğümüyle UGC reklam ve Shorts'ları hook ve dil bazında seri üretirsiniz.
Fiyat, süre ve otomatik seçilen model gibi bazı değerler henüz açıklanmadı → üretimden önce gösterilen krediyi kontrol edin.
'Ses işinin patronu' artık 'yüzü' de eline aldı.
Sesten videoya tek bir akışla uzanan bir dönem açıldı yani.
Ücretli bir plan kullanıyorsanız, bugün hemen birkaç fotoğraf yükleyip
kendinize özel bir yapay zeka oyuncusu oluşturun.
Tek satırlık bir senaryonun 'konuşan videoya' dönüşmesi, bir kez denerseniz 1 dakikada hissedeceğiniz bir şey!
👉 ElevenLabs Avatarlar'a başla →
Bir sonraki yazıda yine daha faydalı ipuçlarıyla görüşmek üzere.
Ben Sonetho idim. ⚡