받아쓰기 AI가 이렇게까지? Scribe v2 — 누가 말했는지, 웃음소리까지 받아 적습니다

일레븐랩스 Scribe v2는 화자 분리와 효과음 태그로 프로 편집 시간을 획기적으로 절약합니다.

Sonetho

"무료가 널렸는데, 굳이 돈을 써야 합니까?"

Vrew, Whisper, Gemini...
지금은 AI에게 "받아써줘"라고 하면 공짜로 해주는 시대입니다.

그런데 일레븐랩스는 왜 Scribe v2라는 유료 모델을 내놨을까요?
그리고 왜 프로 편집자들은 여기에 열광할까요?

오늘 Sonetho가
무료 툴이 절대 따라올 수 없는 격차를 알려 드립니다.

안녕하세요. Sonetho입니다. ⚡

최근 공개된 Scribe v2는 단순한 '받아쓰기' 도구가 아닙니다. "상황을 이해하는 귀"를 가진 AI입니다.

유튜브 자막 작업, 인터뷰 정리, 글로벌 콘텐츠 제작...
이 지루한 노가다의 판도를 바꿀 3가지 핵심 기능을 낱낱이 파헤쳐 보겠습니다.

👉 Scribe v2는 ElevenLabs 무료 플랜에서도 체험할 수 있고, 긴 영상·다량 전사처럼 본격적으로 쓰려면 크레딧이 넉넉한 Creator 플랜 이상이 유리합니다 — 신규 가입 첫 달 50% 할인(월 $11)으로 시작 가능. 본문에서 무료 도구와 어떤 격차가 있는지 자세히 비교합니다.


1. 말뿐만 아니라 '소리'까지 봅니다 (Audio Tagging)

가장 충격적인 기능은 '비언어적 소리 인식'입니다.
백문이 불여일견, 소리가 겹치고 시끄러운 [액션 영화 예고편]을 각각의 AI에게 들려줘 봤습니다.

🆚 극한 상황 테스트 결과 비교

❌ 일반 무료 AI (Vrew / Whisper)

"거기 서. 넌 벗어날 수 없어."
(설명: 총소리, 숨소리, 배경음이 전부 무시하고 오직 사람의 대사만 전사합니다.)

⭕ ElevenLabs Scribe v2

[Panting] (거친 숨소리)
[Gunshots] (총소리)
Speaker1: 거기 서. [Laughter] 넌 벗어날 수 없어.
[Screams] (비명)

👉 웃음소리, 발자국 소리까지 태그(Tag)로 자동 생성됩니다.

이 기능은 넷플릭스 스타일의 고퀄리티 자막이나,

청각 장애인을 위한 배리어 프리(CC) 자막을 만들 때 편집자의 시간을 획기적으로 줄여줍니다.


2. 정확도(WER) 검증: 내 언어는 몇 등급?

아무리 기능이 좋아도 못 알아들으면 꽝이죠.
일레븐랩스가 공개한 공식 WER(단어 오류율) 데이터를 통해, 여러분이 사용할 언어의 정확도를 확인해 보세요.

🏆 1등급: 최우수 (Excellent)

• 정확도: WER 5% 이하 (거의 완벽함)

[아시아] 일본어, 베트남어, 인도네시아어, 말레이어, 칸나다어, 말라얄람어

[유럽/기타] 영어(English), 스페인어, 프랑스어, 독일어, 이탈리아어, 러시아어, 포르투갈어, 네덜란드어, 덴마크어, 스웨덴어, 노르웨이어, 핀란드어, 폴란드어, 튀르키예어, 우크라이나어, 체코어, 헝가리어, 그리스어, 루마니아어, 크로아티아어, 불가리아어, 슬로바키아어 등

👉 영어와 일본어 콘텐츠를 만든다면 고민할 필요가 없습니다. 타의 추종을 불허합니다.

🥇 2등급: 높은 정확도 (High Accuracy)

• 정확도: WER 5% ~ 10% (훌륭함)

[아시아] 중국어(만다린, 광동어), 힌디어, 벵골어, 필리핀어, 네팔어, 타밀어, 텔루구어, 마라티어, 구자라트어, 카자흐어

[기타] 페르시아어, 스와힐리어, 세르비아어, 슬로베니아어, 리투아니아어 등

🥈 3등급: 양호 (Good)

• 정확도: WER 10% ~ 20% (검수 필요)

★ 한국어(Korean), 아랍어, 태국어, 히브리어, 우즈베크어, 버마어, 자바어, 웨일스어, 펀자브어, 몽골어 등

💡 "한국어가 3등급이라고요?"

실망하지 마세요. 실사용에는 큰 무리가 없지만, 발음이 뭉개지면 오타가 날 수 있습니다.
그래서 일레븐랩스는 이를 보완할 '치트키(Keyterm Prompting)'를 제공합니다. (아래 3번 참조)

🥉 4등급: 보통 (Moderate)

• 정확도: WER 25% ~ 50% (꼼꼼한 검수 필수)

우르두어, 라오스어, 캄보디아어(크메르어), 소말리아어, 줄루어, 파슈토어 등

3. 프로들이 환호하는 '디테일' 3가지

무료 툴을 쓰다가 Scribe v2로 넘어오는 결정적인 이유는 바로 '커스터마이징''스펙' 때문입니다.

① [Keyterm Prompting] 내 이름 틀리지 마!

한국어 인식률을 보완하는 강력한 무기입니다. 자주 쓰는 고유명사(브랜드명, 사람 이름)를 최대 100개까지 미리 등록할 수 있습니다.

예: "일레븐 랩스" (X) → "ElevenLabs" (O)로 자동 고정

② 괴물 같은 용량 (3GB / 10시간)

1시간짜리 영상을 10분 단위로 쪼개서 넣던 시절은 끝났습니다.
최대 10시간 길이, 3GB 크기의 파일을 한 번에 삼킵니다. 라이브 방송 원본이나 긴 회의 녹음본을 그냥 던져놓고 퇴근하세요.

③ 개인정보 자동 탐지 (Entity Detection)

비즈니스 회의록을 만들 때 전화번호, 주민등록번호, 주소 같은 민감 정보가 유출되면 안 되겠죠? Scribe v2는 이런 정보를 자동으로 탐지해 줍니다.


마치며: 누가 써야 할까요?

🚀 에디터의 최종 결론

  • 취미 유튜버 / 브이로거:
    솔직히 Vrew(무료) 쓰셔도 충분합니다. 가성비 최고입니다.
  • 고퀄리티 예능 / 다큐 편집자:
    [Audio Tagging] 때문에 무조건 Scribe v2입니다. 웃음소리 받아적는 시간만 아껴도 구독료 뽑습니다.
  • 글로벌 크리에이터:
    영어, 일본어 자막이 필요하다면 대체재가 없습니다. 정확도(Excellent)가 압도적입니다.

결국 "시간을 돈으로 살 것인가"의 문제입니다.
단순 반복 작업은 AI에게 맡기고, 여러분은 더 창의적인 '편집'에 집중하세요.

프로들을 위한 디테일한 AI 자막,
지금 50% 할인받고 시작하세요 👇

👉 Scribe v2 프로 기능 체험하기

(위 링크로 가입 시 첫 달 최대 50% 할인 혜택이 적용됩니다.)

 

비즈니스 문의 및 기타 문의 사항은 [email protected]으로 부탁드립니다!

Sonetho였습니다. ⚡

 

📚 함께 읽으면 좋은 글

[2026 STT 대전] 받아쓰기 AI 최강자는? ElevenLabs Scribe vs Whisper vs Deepgram 전격 비교!