Eleven v3 vs v2 한국어 비교: 감정, 일관성 평가 그 결과는? (4가지 부문 테스트)

같은 한국어 보이스로 Eleven v2와 v3를 4가지 segment에 걸쳐 직접 출력 비교한 청취 실험. v3가 감정·외국어·효과음 태그에서 명확히 이기지만, 보이스 일관성과 외국어 발음 일관성은 v2가 아직 이김. 9개 트랙 임베드 + 사용 시나리오별 모델 선택 가이드.

"Multilingual v2와 Eleven v3 비교하면 당연히 v3가 낫겠지?"

Eleven v3 Alpha 버전 이후 정식 출시한 v3를 상위모델로 생각하고, 위와 같이 생각하시는 분들이 많을 것 같은데요.

같은 한국어 보이스로 v2와 v3를 4가지 segment에 걸쳐 직접 출력해서 비교해봤습니다.
감정 표현은 v3가 압도적이지만, 보이스 일관성이라는 영역에서는 v2가 아직은 이깁니다.
한국어 사용자 관점에서 정확히 어떤 차이가 있는지, 직접 들어본 9개 트랙과 함께 정리했습니다.

 

안녕하세요, Sonetho입니다. ⚡

v3가 정식 출시된 지 시간이 좀 지났습니다.
이미 v3가 "default 모델"처럼 자리 잡아가는 분위기지만,
매일 쓰는 사람 입장에서는 v3가 모든 영역에서 v2를 이기는 건 아니라는 걸 체감하고 있었습니다. (저도 아직 v2를 사용중입니다!)

그래서 이번 기회에 정확히 검증해보기로 했습니다.
같은 한국어 보이스로, 같은 텍스트를, v2와 v3 두 모델로 각각 출력해서 직접 비교한 실험입니다.

👉 실험에 사용한 도구는 ElevenLabs Creator 플랜입니다.
v2·v3 둘 다 Creator 이상에서 PVC 학습 가능 — 신규 가입 첫 달 50% 할인(월 $11)으로 시작 가능합니다.

 


🔬 테스트 방법

  • 모델: Eleven Multilingual v2 / Eleven v3

  • 보이스: ElevenLabs Voice Library의 Mike — Friendly, Balanced and Clear (PVC)

  • 텍스트: 4가지 segment (일상 톤 · 감정 · 영어/숫자 · 효과음 태그)

  • 추가 변수 (Segment 1 만): v3는 "줄바꿈 포함"과 "줄바꿈 제거" 두 버전 → 문장 출력당 보이스 변동 검증

  • 의도된 까다로움 (Segment 3): "GPT-5.5", "$22" 같은 영어/숫자를 "지피티"식으로 변환하지 않고 원문 그대로 입력 — v3의 영어/숫자 처리 능력 시험 


🎙️ Segment 1 — 일상 톤 (자연스러운 평서문)

가장 평범한 한국어 평서문입니다.
이 segment의 핵심은 텍스트 자체가 아니라 "줄바꿈을 했을 때 보이스가 어떻게 변하는가"입니다.

ElevenLabs Studio에서 같은 텍스트를 두 가지 방식으로 입력했습니다.

  • 줄바꿈 포함: 4개의 짧은 단락으로 분리 (각 문장이 별개 단락)

  • 줄바꿈 제거: 동일 텍스트를 한 단락으로 통일

v2 (줄바꿈 포함)

v3 (줄바꿈 포함)

v3 (줄바꿈 제거 — 한 문단으로 통일)

 

📌 발견 1: v3는 줄바꿈마다 보이스가 미세하게 변한다.

v2는 한 출력 안에서 어디서 줄바꿈을 하든 톤·억양·발화 속도가 일정하게 유지됩니다.
반면 v3는 줄바뀔 때마다 보이스가 마치 다시 sampling되는 것처럼 미세하게 바뀝니다. (말 끝이 잘리는건 덤)

줄바꿈을 모두 제거하고 한 문단으로 출력한 세 번째 트랙에서는 v3도 일관성을 유지합니다.
즉 v3의 일관성 문제는 모델 결함이라기보다 "단락 단위 reseed"라는 동작 특성에서 비롯되는 것으로 보입니다.

이게 왜 중요하냐 — 시리즈 콘텐츠, 캐릭터 더빙, 오디오북 챕터처럼 보이스 일관성이 핵심인 작업에서는 v3를 그대로 쓸 수 없습니다.
우회법은 단락 분리를 최소화하거나,

ElevenLabs Studio에서 챕터를 한 덩어리로 처리하는 방식 정도입니다. (이마저도 글자수 한계가 있습니다)

 


😊 Segment 2 — 감정 표현 (놀람·기쁨·진지함)

같은 단어를 다른 감정 톤으로 표현하는 능력을 보는 segment입니다.

v2

v3

 

📌 발견 2: 감정 표현은 v3가 압도적이다.

v2는 같은 문장의 감정 톤이 평탄합니다.
"와, 진짜요?"의 놀람과 "솔직히 좀 충격이었어요"의 진지함이 거의 같은 톤으로 흘러갑니다.

v3는 다이내믹 레인지가 훨씬 큽니다.
놀람은 톤이 위로 튀어 올라가고, 진지한 부분은 호흡이 깊어지며,

"솔직히 좀 충격이었어요" 같은 표현에서는 잠깐의 머뭇거림까지 시뮬레이션됩니다.

이 영역에서는 v2가 v3를 따라잡을 가능성이 거의 없습니다.
광고, 더빙, 캐릭터 보이스 같이 감정 표현이 핵심인 작업이라면 v3가 명확한 선택입니다.

v3 감정 표현을 직접 들어보고 싶다면 — v2·v3 둘 다 한 플랜으로

v2·v3 모두 Creator 플랜에서 쓸 수 있고, 내 목소리 PVC 학습도 가능합니다. 신규 가입 첫 달 50% 할인($11)으로 바로 비교해 보세요.

v2·v3 둘 다 쓰는 Creator 플랜 50% 할인으로 시작 →

 


🔤 Segment 3 — 영어 · 숫자 · 고유명사 혼합

이번 실험에서 가장 흥미로운 trade-off가 나온 영역입니다.

의도적으로 "GPT-5.5", "$22", "Claude Opus 4.7", "API 300ms" 같이 한국어 화자가 자연스럽게 다루기 어려운 표현을 원문 그대로 입력했습니다.

v2

v3

 

📌 발견 3 (Trade-off): 학습 데이터 유무에 따른 갈림.

v2는 학습된 데이터 기반으로 출력합니다.
PVC 모델 학습 데이터에 영어와 숫자가 많이 들어있다면 v2도 자연스럽게 따라옵니다.
하지만 학습 데이터에 없는 패턴은 숫자조차도 제대로 발음하지 못합니다.

v3는 학습 데이터 의존도가 낮아 처음 보는 패턴도 자연스럽게 처리합니다.
"$22"를 "이십이 달러"로, "300ms"를 "삼백 밀리초"로 무리 없이 변환합니다.

 

📌 발견 4 (v3의 새 약점): 외국어 발음 일관성.

v3는 같은 영어 단어를 출력 안에서도 영국식, 미국식, 한국식 여러 억양으로 왔다갔다 합니다.
"ElevenLabs"의 강세 위치가 바뀌거나, "Creator"의 발음이 도중에 변합니다.
한 영상 안에서 일관된 발음이 필요한 경우 후처리 부담이 생깁니다.

v2는 학습된 발음 패턴을 그대로 유지하므로 일관성은 더 좋지만,

학습 데이터에 영어가 많지 않으면 어색한 직역식 한국어 발음이 나옵니다.

 

요약하면:

  • 이번 실험 조건 (Mike, Voice Library 공식 보이스): v2도 영어·숫자를 어느 정도 따라옴. 다만 v3 만큼 매끄럽지는 않음.

  • 본인 PVC + 영어·숫자가 학습 데이터에 풍부: v2가 일관된 발음을 유지하면서 자연스러운 출력 가능 (제 경험상). 외국어 발음 일관성에서 v3보다 유리.

  • 본인 PVC + 영어·숫자가 학습 데이터에 거의 없음: v2는 숫자조차 어색하게 읽음. v3가 안전.

  • 외국어 발음을 한 영상 안에서 일정하게 유지해야 한다: v2 (후처리 부담 적음).

즉 PVC 학습 데이터의 풍부함이 v2의 성패를 가르는 추가 변수입니다.
이번 실험은 Mike (Library 공식 보이스, 학습 데이터 풍부) 기준이므로 일반 사용자 환경에 가깝습니다.

 


🎭 Segment 4 — 효과음 태그 ([웃음] [한숨] 등)

🎧 효과음 태그, 글로만 보지 말고 직접 입력해 보세요

위에서 들은 v3의 효과음 태그와 감정 표현은 직접 텍스트를 넣어볼 때 차이가 가장 크게 느껴집니다. ElevenLabs Text to Speech에 문장과 [웃음]·[한숨] 같은 태그를 그대로 입력하면, 이 글에서 비교한 v3 출력을 몇 초 만에 내 텍스트로 재현해볼 수 있습니다.

🎙️ Text to Speech에서 v3 태그 직접 입력해보기 →

v3의 신기능 중 하나가 효과음 태그 처리입니다.
v2도 같은 텍스트를 어떻게 처리하는지 비교했습니다.

v2

v3

 

📌 발견 5: v2는 태그를 무시하거나 텍스트 그대로 읽는다.

"[웃음]"이라는 텍스트가 v2 출력에서는 "웃음"으로 읽힙니다.
효과음 태그라는 개념 자체를 v2 모델은 인식하지 못합니다.

v3는 태그를 실제 효과음으로 변환해서 출력합니다.
"[웃음]"은 실제 웃음 소리, "[한숨]"은 호흡 표현으로 처리됩니다.
이 영역도 v3의 명확한 우위입니다.

 


📊 영역별 우위 정리 — 발견 종합

영역

v2

v3

우위

일상 톤 자연스러움

좋음

매우 좋음

v3

보이스 일관성 (단락 단위)

매우 안정

출력마다 변동

v2

외국어 발음 일관성

안정

영↔미 변동

v2

감정 표현 다이내믹

평탄

풍부

v3

숫자·기호 (PVC 학습됨)

자연스러움

자연스러움

비슷

숫자·기호 (학습 안 됨)

약함

좋음

v3

고유명사·외국어 처리

학습 데이터 의존

유연

v3

효과음 태그 ([웃음] 등)

무시

처리

v3

 


결론은 '둘 다 필요' — 그럼 Creator 플랜 하나면 됩니다

v2·v3 각각 강점 영역이 갈리니, 둘 다 쓸 수 있는 Creator 플랜을 50% 할인가 $11로 시작하는 게 가장 합리적입니다.

Creator 플랜 50% 할인으로 v2·v3 둘 다 시작하기 →

🎯 어떤 콘텐츠에 어떤 모델 — 사용 시나리오별 추천

① 시리즈 콘텐츠 · 캐릭터 더빙 · 오디오북 챕터 — v2

여러 단락에 걸친 긴 콘텐츠에서 보이스 일관성이 핵심입니다.
v3는 줄바꿈마다 reseed 되는 현상이 있어 챕터 안에서 보이스가 변합니다.
이 영역은 v2가 명확한 선택. PVC 학습이 잘 되어 있다면 더 안정적입니다.

② 단편 광고 · 감정 표현이 핵심인 더빙 · 캐릭터 보이스 — v3

감정 다이내믹 레인지에서 v2는 v3를 따라잡지 못합니다.
짧고 다이내믹한 콘텐츠는 v3가 압도적.

③ API · 외국어 자료 TTS · 숫자 많은 보고서 낭독 — v3

학습 데이터에 의존하지 않고도 처음 보는 패턴을 자연스럽게 출력합니다.
다만 외국어 발음 일관성이 중요한 경우라면 후처리 필요.

💡 외국어 자료·숫자 많은 보고서를 v3로 낭독시키는 실전 활용은 여기 → ElevenReader로 외국어 자료·숫자 많은 보고서를 v3로 낭독시키는 법

④ 효과음 태그 활용 콘텐츠 — v3

[웃음], [한숨], [속삭임] 같은 태그를 활용한 콘텐츠는 v3 외의 선택지가 없습니다.

⑤ 본인 PVC를 활용한 일관된 콘텐츠 — v2

본인 보이스를 클로닝한 PVC를 매일 쓰는 경우, 학습 데이터가 풍부할 가능성이 큽니다.
이 경우 v2가 일관성·발음·억양 모든 면에서 v3보다 예측 가능한 출력을 제공합니다.

 


💡 결론 — Sonetho의 정리

ElevenLabs가 v3를 default 모델로 밀고 있지만, 현 시점에서 v3가 v2를 모든 영역에서 대체하지는 못합니다.

v3의 보이스 일관성 문제는 모델 결함이라기보다 "단락 단위 reseed"라는 동작 특성으로 보입니다.
v3 GA 단계에서 개선될 가능성이 있는 영역이고, 추적할 가치가 있습니다.

지금 당장의 권장:
보이스 일관성 + 외국어 발음 + 본인 PVC 활용이 중요하면 v2 유지.
감정 표현 + 효과음 + 처음 보는 패턴 처리가 중요하면 v3 채택.
두 모델을 콘텐츠 종류별로 라우팅하는 게 가장 현실적인 답입니다.

 

👉 ElevenLabs 50% 할인 받는 법은 2026년 5월 일레븐랩스 할인 가이드 에서 확인하세요.
👉 또는 50% 할인 코드 자동 적용 링크 (신규 가입) 로 바로 시작도 가능합니다.

 

📚 함께 보면 좋은 글

 

다음 글에서 또 만나요. Sonetho였습니다. ⚡

 

 

📚 함께 읽으면 좋은 글

ElevenLabs가 3배 비싼데도 쓰는 이유? Google·Amazon TTS와 전격 비교! (2026 가격·음질·한국어)

ElevenLabs API 최대 55% 인하! 쓴 만큼만 내는 종량제 시작 가이드 - 모델 선택부터 비용 계산까지