Eleven v3 vs v2 Türkçe Karşılaştırması: Duygu ve Tutarlılık Testi

Eleven v2 ve v3 modellerini 4 farklı segmentte doğrudan karşılaştırdığımız Türkçe seslendirme testimiz yayında. Eleven v3; duygu aktarımı, yabancı dil performansı ve ses efektleri konusunda açık ara öndeyken, ses tutarlılığı ve yabancı dilde telaffuz istikrarı konusunda v2 hala avantajlı. 9 farklı ses örneğinin yer aldığı bu rehberde, kullanım senaryonuza göre en uygun AI ses modelini nasıl seçeceğinizi keşfedin.

"Çok dilli v2 ile Eleven v3'ü kıyaslarsak elbette v3 daha iyidir, değil mi?"

Şubat 2026'daki resmi lansmanından (GA) önce Alpha sürümünü deneyenler de dahil olmak üzere, birçok kişinin v3'ü doğrudan bir üst model olarak konumlandırdığını tahmin edebiliyoruz.

Aynı Türkçe sesle v2 ve v3 modellerini 4 farklı segmentte test ettik ve sonuçları doğrudan karşılaştırdık.
Duygu aktarımında v3 kesinlikle çığır açıyor; ancak ses tutarlılığı (voice consistency) söz konusu olduğunda v2 hala liderliğini koruyor.
Türkçe içerik üreticileri açısından bu iki model arasındaki gerçek farkları, hazırladığımız 9 farklı ses örneğiyle birlikte detaylandırdık.

 

Merhaba, biz Sonetho ekibiyiz! ⚡

v3 modelinin resmi olarak kullanıma sunulmasının (GA) üzerinden biraz zaman geçti.
Artık v3 adeta "varsayılan (default) model" haline gelmiş gibi görünse de, her gün aktif olarak ses üreten profesyoneller v3'ün tüm alanlarda v2'yi geride bırakmadığını fark edebiliyor. (Açıkçası, ben de uzun soluklu projelerimde hala v2'yi tercih ediyorum!)

Bu yüzden durumu kapsamlı bir şekilde test etmeye karar verdik.
Aynı Türkçe ses klonunu (PVC) kullanarak, aynı metinleri hem v2 hem de v3 modelleriyle ürettik ve doğrudan kıyasladık.

👉 Bu testte ElevenLabs Creator planını kullandık.
Hem v2 hem de v3 modellerinde Profesyonel Ses Klonlama (PVC) özelliği Creator planı ve üzerinde aktiftir. Yeni kullanıcılar için ilk ay %50 indirimle (sadece 11$) başlamak mümkündür.

 


🔬 Test Yöntemi

  • Modeller: Eleven Multilingual v2 / Eleven v3

  • Ses: ElevenLabs Ses Kütüphanesi'nden (Voice Library) Mike — Friendly, Balanced and Clear (PVC)

  • Metin: 4 farklı segment (Günlük konuşma · Duygu · İngilizce/Sayılar · Ses Efekti Etiketleri)

  • Ek Değişken (Sadece Segment 1 için): v3 modelinde "Satır Sonu / Paragraf Geçişli" ve "Tek Paragraf" olmak üzere iki versiyon test edildi → Cümle bazlı ses değişimini gözlemlemek için.

  • Kasıtlı Zorluk Derecesi (Segment 3): "GPT-5.5", "$22" gibi yabancı terimleri ve sayıları Türkçe okunuşlarıyla ("cipiti beş virgül beş" veya "yirmi iki dolar" şeklinde) yazmak yerine, orijinal halleriyle girdik. Böylece v3'ün İngilizce terimleri ve sayısal sembolleri Türkçe metin akışında nasıl işlediğini test ettik.


🎙️ Segment 1 — Günlük Ton (Doğal Düz Cümleler)

Bu segment, en temel Türkçe düz cümlelerden oluşuyor.
Ancak buradaki asıl odak noktamız metnin kendisi değil, "satır sonlarında veya paragraf geçişlerinde ses tonunun nasıl değiştiği"dir.

ElevenLabs Studio üzerinde aynı metni iki farklı formatta girdik.

  • Satır Geçişli: Metin 4 kısa paragrafa ayrıldı (her cümle ayrı bir satırda).

  • Düz Paragraf: Aynı metin satır sonu olmadan, tek bir paragraf halinde birleştirildi.

v2 (Satır Geçişli)

v3 (Satır Geçişli)

v3 (Düz Paragraf - Tek Paragraf)

 

📌 Bulgusu 1: v3, her satır geçişinde seste hafif ton kaymaları yaşıyor.

v2 modelinde metni nasıl bölerseniz bölün, tonlama, vurgu ve konuşma hızı baştan sona tutarlı kalır.
Ancak v3'te satır geçişlerinde ses sanki yeniden örnekleniyormuş (sampling) gibi mikro düzeyde değişebiliyor. (Bazen cümle sonlarındaki hecelerin hafifçe yutulması da cabası.)

Satır sonlarını kaldırıp metni tek bir paragraf olarak ürettiğimiz üçüncü örnekte ise v3 oldukça tutarlı bir performans sergiledi.
Bu durum, v3'teki tutarlılık dalgalanmasının bir model hatasından ziyade, her paragrafta sesin yeniden tohumlanması (re-seed) gibi çalışan teknik bir mimariden kaynaklandığını gösteriyor.

Peki bu neden önemli? Sesli kitaplar, uzun podcast serileri, YouTube belgesel seslendirmeleri veya karakter dublajları gibi ses tutarlılığının hayati olduğu projelerde v3'ü doğrudan kullanmak zorlayıcı olabilir.
Bu durumun pratik çözümü, satır geçişlerini minimumda tutmak ya da metni ElevenLabs Studio'da mümkün olduğunca tek blok halinde işlemektir.

 


😊 Segment 2 — Duygu İfadesi (Şaşırma · Neşe · Ciddiyet)

Aynı kelimelerin farklı duygu tonlarında nasıl canlandırıldığını test ettiğimiz bölüm.

v2

v3

 

📌 Bulgusu 2: Duygu aktarımında v3 kesinlikle rakipsiz.

v2 modelinde duygusal geçişler oldukça düzdür.
"Hadi canım, gerçekten mi?" ifadesindeki şaşırma ile "Dürüst olmak gerekirse biraz sarsıldım" cümlesindeki ciddiyet neredeyse aynı tonda kalır.

v3 ise muazzam bir dinamik aralığa sahip.
Şaşırma anında ses tonu doğal bir şekilde yükselirken, ciddi kısımlarda nefes alışverişi derinleşiyor.

Hatta "Dürüst olmak gerekirse biraz sarsıldım" derken aradaki o insansı duraksama ve tereddüt bile harika bir şekilde simüle ediliyor.

Duygusal derinlik söz konusu olduğunda v2'nin v3 ile yarışması oldukça zor.
Reklamlar, film/oyun dublajları ve karakter seslendirmeleri gibi duygunun ön planda olduğu projeler için v3 kesinlikle doğru tercihtir.

v3'ün duygu performansını kendiniz test etmek isterseniz – Tek bir planla hem v2 hem v3!

Hem v2 hem de v3 modelleri Creator planında mevcuttur ve kendi sesinizle PVC yapmanıza olanak tanır. Yeni üyelere özel ilk ay %50 indirim (11$) fırsatıyla hemen karşılaştırmaya başlayın.

Hem v2 Hem v3 Kullandıran Creator Planını %50 İndirimle Başlatın →

 


🔤 Segment 3 — İngilizce · Sayılar · Özel İsimlerin Karışımı

Bu testte en ilginç dengelerin (trade-off) ortaya çıktığı alan burası oldu.

Metne bilerek "GPT-5.5", "$22", "Claude Opus 4.7", "API 300ms" gibi teknik ve finansal ifadeleri orijinal halleriyle ekledik.

v2

v3

 

📌 Bulgusu 3 (Denge): Eğitim verisinin zenginliğine göre değişen sonuçlar.

v2, doğrudan yüklenen eğitim verilerine (dataset) sadık kalır.
Eğer PVC modelinizi eğitirken kullandığınız ses dosyalarında İngilizce terimler ve sayılar çokça yer alıyorsa, v2 bunları şaşırtıcı derecede doğal telaffuz edebilir.
Ancak eğitim verisinde bulunmayan yabancı bir kelime veya alışılmadık bir sayı dizilimi söz konusu olduğunda v2 hata yapmaya elverişlidir.

v3 ise temel dil yetenekleri çok daha gelişmiş bir modeldir.
"$22"yi doğrudan "yirmi iki dolar" olarak, "300ms"yi ise "üç yüz milisaniye" şeklinde akıcı bir Türkçe ile seslendirebilir.

 

📌 Bulgusu 4 (v3'ün Yeni Zayıflığı): Yabancı terimlerde aksan tutarsızlığı.

v3 modelinde ilginç bir şekilde aynı İngilizce kelime tek bir ses çıktısı içerisinde bazen Amerikan, bazen İngiliz, bazen de Türkçe aksanlı İngilizce olarak değişkenlik gösterebiliyor.
"ElevenLabs" kelimesinin vurgusu cümle içinde değişebiliyor ya da "Creator" kelimesinin telaffuzu bir sonraki satırda farklılaşabiliyor.
Aynı videoda yabancı kelimelerin telaffuzunun hep aynı kalması gerekiyorsa bu durum post-prodüksiyon aşamasında ek iş yükü yaratabilir.

v2 ise bir kez öğrendiği telaffuz şablonunu korur, bu yönüyle daha istikrarlıdır; fakat eğitim verisi İngilizce kelimeler açısından zayıfsa, yabancı kelimeleri aşırı Türkçe fonetikle okuyarak komik durumlara yol açabilir.

 

Özetle:

  • Bu testteki senaryo (Mike - Kütüphane Sesi): Mike sesinin zengin eğitim verisi sayesinde v2 de İngilizce ve sayıları iyi yönetti, ancak v3 kadar pürüzsüz geçişler yapamadı.

  • Kendi PVC'niz + Zengin İngilizce/Sayı Verisi: Eğer kendi sesinizi klonlarken veri setini zengin tuttuysanız, v2 aksan tutarlılığını çok daha iyi korur ve daha kontrollü bir çıktı verir. Yabancı dilde telaffuz istikrarında v3'ten daha avantajlıdır.

  • Kendi PVC'niz + Yetersiz Veri: Eğer veri setinizde neredeyse hiç yabancı kelime yoksa v2 basit sayıları bile okumakta zorlanabilir. Bu durumda v3 kesinlikle daha güvenlidir.

  • Aynı videoda yabancı kelimelerin telaffuzunun hep aynı kalması gerekiyorsa: v2 (post-prodüksiyon yükü daha azdır).

Kısacası, v2 kullanırken başarının sırrı PVC eğitim verilerinizin kalitesinden geçer.
Bu test, kütüphanedeki zengin veriyle eğitilmiş Mike sesiyle yapıldığından ortalama bir kullanıcı deneyimine oldukça yakındır.

 


🎭 Segment 4 — Ses Efekti Etiketleri (Örn: [laughter] [sigh])

🎧 Ses Efekti Etiketlerini Sadece Okumayın, Kendiniz Deneyin

Yukarıda duyduğunuz v3'ün ses efekti etiketleri ve duygu geçişlerindeki başarısı, en çok kendi metinlerinizle denediğinizde fark ediliyor. ElevenLabs Text to Speech arayüzüne cümlelerinizin arasına [laughter] veya [sigh] gibi etiketleri ekleyerek, bu yazıda dinlediğiniz gerçekçi v3 çıktısını saniyeler içinde kendi metninizle deneyimleyebilirsiniz.

🎙️ Text to Speech Üzerinde v3 Etiketlerini Hemen Deneyin →

v3 modelinin getirdiği en heyecan verici yeniliklerden biri de bu tarz ses efekti etiketlerini (sound effect tags) yorumlayabilmesidir.
Şimdi v2'nin aynı etiketleri nasıl işlediğine bakalım.

v2

v3

 

📌 Bulgusu 5: v2 etiketleri ya tamamen yok sayıyor ya da düz metin gibi okuyor.

Örneğin metne yazılan "[laughter]" ifadesi, v2 modelinde doğrudan "laughter" olarak okunup geçilir. v2, bu tür parantez içi komutları bir ses efekti tetikleyicisi olarak algılayamaz.

v3 ise bu etiketleri gerçek insansı tepkilere dönüştürür.
"[laughter]" yazıldığında doğal bir kıkırdama/gülüş sesi, "[sigh]" yazıldığında ise gerçekçi bir iç çekme sesi üretir.
Bu özellik, v3'ün yaratıcı içeriklerdeki en büyük kozudur.

 


📊 Karşılaştırma Özeti — Bulgular

Segment / Özellik

v2

v3

Kazanan

Günlük Ton Doğallığı

İyi

Çok İyi

v3

Ses Tutarlılığı (Paragraf Bazlı)

Çok Kararlı

Çıktıdan Çıktıya Değişken

v2

Yabancı Dil Telaffuz Tutarlılığı

Kararlı

Aksanlar Arası Değişken

v2

Duygu Dinamikleri

Düz

Çok Zengin

v3

Sayılar & Semboller (PVC ile Eğitilmiş)

Doğal

Doğal

Benzer

Sayılar & Semboller (Eğitilmemiş)

Zayıf

İyi / Doğal

v3

Özel İsimler & Yabancı Dil Yönetimi

Eğitim Verisine Bağımlı

Esnek

v3

Ses Efekti Etiketleri (Örn: [laughter])

Göz Ardı Ediyor

Başarıyla İşliyor

v3

 


Sonuç: "Her İki Model de Lazım" — O Halde Tek Bir Creator Planı Yeterli

v2 ve v3 modellerinin güçlü olduğu alanlar tamamen farklı. Bu yüzden her iki modele de erişim sunan Creator planını %50 indirimle sadece 11$ karşılığında başlatmak en mantıklı ve ekonomik seçenektir.

Creator Planını %50 İndirimle Başlatıp v2 ve v3'ü Birlikte Kullanın →

🎯 Hangi İçerik İçin Hangi Model? – Kullanım Senaryolarına Göre Öneriler

① Seri İçerikler · Karakter Dublajları · Sesli Kitap Bölümleri — v2

Çok sayıda paragraftan oluşan uzun soluklu içeriklerde ses tutarlılığı en kritik unsurdur.
v3 modelinde her satır geçişinde yaşanan "re-seed" (yeniden örneklenme) durumu, sesin bölüm içinde değişmesine yol açabilir.
Bu sebeple sesli kitap projelerinde kesinlikle Multilingual v2 modelini öneriyoruz. Eğer kaliteli bir PVC sesiniz varsa v2 ile mükemmel sonuçlar alırsınız.

② Kısa Reklamlar · Duygusal Derinlik Gerektiren Dublajlar · Karakter Sesleri — v3

Duygu dinamiklerinde v2, v3'ün sunduğu gerçekçiliğe ulaşamaz.
Kısa, enerjik ve duygu geçişlerinin yoğun olduğu kreatif projelerde v3 açık ara öndedir.

③ API · Yabancı Dilde Metin Okuma (TTS) · Yoğun Sayısal Raporlar — v3

Eğitim verisine bağımlı kalmadan karşılaştığı tüm karmaşık formatları (sayılar, semboller) pürüzsüzce seslendirir.
Ancak telaffuz aksanının tamamen aynı kalması gerekiyorsa ufak düzenlemeler (post-prodüksiyon) gerekebilir.

💡 Sayısal raporları ve yabancı kaynakları v3 ile seslendirmenin pratik yollarını buradan inceleyebilirsiniz → ElevenReader ile Sayısal Raporları ve Yabancı Kaynakları v3 ile Seslendirme Yöntemleri

④ Ses Efekti Etiketleri Kullanan İçerikler — v3

Metin aralarına [laughter], [sigh], [whisper] gibi efektler ekleyerek dinamizm katmak istediğiniz projelerde v3'ten başka bir alternatifiniz yok.

⑤ Kendi PVC'nizi (Klonlanmış Sesinizi) Kullandığınız İstikrarlı İçerikler — v2

Eğer kendi sesinizi klonladığınız PVC modelinizi günlük işlerinizde sıkça kullanıyorsanız ve eğitim veri setiniz oldukça genişse,
v2 modeli size çok daha öngörülebilir, tutarlı ve kararlı bir ton sunacaktır.

 


💡 Sonuç — Sonetho Değerlendirmesi

ElevenLabs her ne kadar v3 modelini varsayılan (default) olarak öne çıkarsa da, şu anki mevcut yapıda v3'ün v2 modelini her senaryoda tamamen ikame edemediğini açıkça görüyoruz.

Özellikle v3'teki ses tutarlılığı dalgalanması teknik bir hatadan çok, "paragraf bazlı re-seed" yapısından kaynaklanıyor.
Şubat 2026'da gerçekleşen resmi GA lansmanından sonra da bu sürecin nasıl optimize edileceğini yakından takip etmeye devam edeceğiz.

Şu an için tavsiyemiz:
Ses tutarlılığı + yabancı kelime telaffuz istikrarı + kendi PVC kaliteniz ön plandaysa v2 modelinde kalın.
Yoğun duygu geçişleri + ses efektleri + yabancı terimlerin otomatik dönüştürülmesi öncelikliyse v3 modelini tercih edin.
En profesyonel çözüm, her iki modeli de ürettiğiniz içerik tipine göre hibrit bir şekilde kullanmaktır.

 

👉 ElevenLabs indirimlerinden nasıl yararlanacağınızı öğrenmek için Mayıs 2026 ElevenLabs İndirim Rehberi yazımıza göz atabilirsiniz.
👉 Veya doğrudan %50 İndirim Kodlu Otomatik Kayıt Linki (Yeni Üyelik) üzerinden hemen başlayabilirsiniz.

 

📚 İlginizi Çekebilecek Diğer Yazılar

 

Bir sonraki yazımızda görüşmek üzere. Sonetho ekibi olarak keyifli üretimler dileriz! ⚡

 

 

📚 Birlikte Okumak İçin Harika Yazılar

ElevenLabs 3 Kat Daha Pahalı Olmasına Rağmen Neden Tercih Ediliyor? Google ve Amazon TTS ile Karşılaştırma! (2026 Fiyat, Ses Kalitesi ve Türkçe Performansı)

ElevenLabs API Ücretlerinde %55'e Varan İndirim! Kullandıkça Öde (Pay-as-you-go) Rehberi - Model Seçiminden Maliyet Hesaplamaya