일레븐랩스 아바타: 사진 한 장 + 대본만 넣으면 '말하는 AI 사람' 영상이 뚝딱 ⚡

Q: 사진 한 장만 있으면 바로 아바타를 만들 수 있나요?

기술적으론 사진 1장으로도 만들 수 있고, 사진 없이 글(텍스트 프롬프트)로 묘사 해서 만들 수도 있습니다. 다만 공식 안내는 같은 인물의 여러 각도 사진 3~5장 을 권장합니다. 1장만 쓰면 영상마다 얼굴이 일관되지 않을 수 있거든요. 안정적인 결과를 원하면 여러 장을 올리세요.

Q: 무료 플랜으로도 말하는 아바타 영상을 만들 수 있나요?

아니요. 아바타 영상 생성 은 유료 플랜에서만 가능합니다(무료 플랜은 영상 생성 제한). 다만 ElevenCreative의 모든 유료 플랜 에서 쓸 수 있고, 비용은 기존 'Image & Video' 크레딧으로 차감됩니다. 고른 모델·해상도·영상 길이에 따라 달라지며, 생성 전 화면에 예상 크레딧이 미리 표시 되니 보고 결정하시면 됩니다.

Q: HeyGen·Synthesia 대신 일레븐랩스 아바타를 써야 할 이유가 있나요?

가장 큰 차이는 '음성' 입니다. 일레븐랩스는 원래 TTS·보이스 클론이 본업이라, 목소리 품질과 다국어 음성이 강합니다. 거기에 얼굴(립싱크)을 붙여 오디오를 다른 서비스로 옮기지 않고 한 곳에서 한 번에 영상을 만든다는 게 핵심 강점이에요. 음성 퀄리티가 최우선이거나 다국어 영상을 자주 만든다면 매력적입니다. (반대로 분 단위 예산 관리가 중요하면 Synthesia, 기존 영상 다국어 번역이 주 목적이면 HeyGen도 좋은 선택입니다.)

Q: 영상마다 얼굴이 달라지지 않게, 같은 인물로 계속 쓸 수 있나요?

네, 그게 아바타의 핵심입니다. 한 번 만든 아바타는 고정된 정체성 을 유지해서, 생성 횟수와 상관없이 여러 영상에 같은 얼굴 로 등장합니다. 'Styles(스타일)' 기능으로 각도·의상·배경만 바꾼 변형도 만들 수 있어, 정체성은 유지하면서 다양한 연출이 가능해요.

"사진 한 장 올리고, 대본만 썼는데… 그 사람이 진짜로 말을 하네?"

지금까지 일레븐랩스는 '목소리'를 만드는 회사였습니다.
그런데 이번엔 '얼굴'까지 만들기 시작했습니다.
대본만 넣으면 말하는 AI 사람 영상이 한 번에 나오는, Avatars(아바타) 이야기입니다.

안녕하세요, Sonetho입니다. ⚡

거의 3년째 매일 일레븐랩스를 다뤄온 저희가,
오늘은 2026년 6월 중순 공식 발표된 따끈한 신기능, Avatars(아바타)를 들고 왔습니다.

한 줄로 먼저 말씀드리자면.
이제 일레븐랩스 안에서도 '말하는 사람 영상'을 통째로 만들 수 있습니다.
사진을 올려 AI 인물을 만들고, 대본을 쓰고, 목소리를 고르면
→ 그 인물이 입 모양까지 딱딱 맞춰 말하는 영상이 나옵니다.

한국 크리에이터라면 한 번쯤 들어본 HeyGen·Synthesia(말하는 AI 아바타 영상 서비스)를 떠올리시면 됩니다.
그 영역에 '목소리 끝판왕' 일레븐랩스가 들어온 거죠.
오늘 이게 뭔지, 어떻게 쓰는지, 기존 서비스랑 뭐가 다른지 초심자 눈높이로 끝까지 파보겠습니다!

👉 일레븐랩스 아바타 시작하기 →

🤔 음성 회사가 왜 갑자기 '얼굴'을?

먼저 용어부터 쉽게 풀게요.

💡 한 번에 이해하는 용어 박스

Avatars(아바타) = 사진이나 글로 만든 '나만의 AI 인물'. 한 번 만들면 여러 영상에 계속 재사용.
토킹헤드(talking-head) = 사람이 화면을 보고 말하는, 유튜브·광고에서 흔한 '말하는 얼굴' 영상.
립싱크(lip-sync) = 목소리에 맞춰 입 모양을 자연스럽게 맞추는 기술.
ElevenCreative = 일레븐랩스의 콘텐츠 제작 공간. 그 안의 'Image & Video(이미지·영상)' 메뉴에 이번 아바타가 들어왔어요.

일레븐랩스의 진짜 무기는 누가 뭐래도 '목소리'입니다.
TTS(글자를 사람 목소리로 바꿔주는 기술)와 보이스 클론(목소리 복제)에서 세계 최고 수준이죠.

그런데 영상 만드는 분들은 이런 불편을 겪었습니다.

일레븐랩스에서 목소리를 뽑고,
그 오디오 파일을 다른 서비스(HeyGen 등)에 다시 올려서,
거기서 입 모양을 맞추는… 이 핸드오프(파일을 이리저리 옮기는 작업)가 번거로웠죠.

아바타는 이 단계를 한 곳에서 통째로 해결합니다.
목소리도, 얼굴도, 입 맞추기도 → 일레븐랩스 안에서 한 번에.
음성 회사가 얼굴을 만든 게 아니라, '음성에서 영상까지'를 끊김 없이 잇겠다는 그림인 거예요.

⚙️ 작동 방식: '음성 export' 단계가 통째로 사라졌다

이번 아바타의 핵심 발표 문구가 하나 있습니다.
바로 "prompt island(프롬프트 화면)에 Text to Speech가 직접 내장됐다"는 거예요.

어렵게 들리지만, 뜻은 간단합니다.

💡 쉽게 말하면

대본을 입력하는 그 자리(prompt island = 명령어를 적는 입력 패널)에 목소리 만드는 기능이 같이 들어있다는 뜻.
그래서 목소리(음성)와 입 맞춘 영상(립싱크)이 '한 번에 같이' 생성됩니다.
오디오 파일을 따로 뽑아서(export) 다른 데로 옮길 필요가 아예 없어요.

여기서 한 가지 더.
일레븐랩스는 '목소리 만드는 부분'을 직접 가지고 있는 회사라는 점이 강점으로 작용합니다.

목소리 만드는 기술(voice model)과 입 맞추는 기술(lip-sync model)이 같은 집 안에서 함께 돌아가니까,
외부에서 오디오를 가져와 입을 맞추는 방식보다 싱크(입과 소리의 타이밍)가 더 딱 맞는다고 공식 발표는 설명합니다.
입은 "안녕"인데 소리는 "하세요"가 나오는, 그 미묘한 어긋남이 줄어든다는 거죠.

📌 에디터 메모: 립싱크 모델은 '내가' 고릅니다 ⚡
일레븐랩스는 여러 우수한 립싱크 기술을 한곳에 모아두고,
생성 화면에서 원하는 립싱크 모델을 직접 고를 수 있게 해뒀습니다(기본값도 제공).
핵심은 모델마다 품질·최대 해상도·'초당 크레딧'이 다르다는 것. 바로 아래 실측표에서 정리했습니다.

🎬 따라하기: 사진에서 말하는 영상까지, 단계별로

실제 사용 흐름은 생각보다 단순합니다.
공식 안내 기준으로 정리하면 이렇습니다.

1단계: 아바타(나만의 AI 인물) 만들기
ElevenCreative의 Image & Video 메뉴에서 Avatar 영역의 'New(새로 만들기)'를 누릅니다.
그다음 둘 중 하나로 인물을 만들어요.

사진 업로드: 같은 인물의 여러 각도 사진 3~5장을 올리면 결과가 안정적입니다.
(사진 1장만 올리면 결과가 들쭉날쭉할 수 있어요.)
글로 묘사: 사진 없이 텍스트 프롬프트로 "이런 사람"이라고 묘사해도 만들 수 있습니다.

참고로 사람뿐 아니라 캐릭터·동물도 아바타로 만들 수 있어요. (사람이 아니어도 OK)

2단계: 이름 짓고 기본 목소리 지정
아바타에 이름을 붙이고, 필요하면 기본 음성(default voice)을 정한 뒤 'Create Avatar'로 인물을 확정합니다.
각 아바타엔 기본 목소리가 미리 붙지만 언제든 바꿀 수 있어요.

3단계: 말하는 영상 만들기
만든 아바타를 고르고 'Create Lip Sync(립싱크 만들기)'를 누릅니다.
그리고 ① 스타일 선택 → ② 목소리 선택(라이브러리 음성 또는 내가 복제한 음성) → ③ 대본 입력 → ④ 'Generate speech'로 음성을 만들어 미리듣기.

4단계: 생성
필요하면 영상 분위기를 잡는 비주얼 프롬프트를 살짝 더한 뒤 'Generate'를 누르면 끝.
입 맞춘 영상이 목소리와 함께 완성됩니다.

💡 크레딧, 미리 보고 누르세요

아바타 영상은 기존 'Image & Video' 크레딧 구조를 따릅니다.
비용은 고른 립싱크 모델 · 출력 해상도 · 영상 길이에 따라 달라집니다.
다행히 생성 버튼을 누르기 전에 화면에 예상 크레딧이 미리 표시됩니다. 보고 누르세요!
(해상도는 480p·720p·1080p를 지원하는데, 일부 기준에선 해상도·화면비보다 '영상 길이'가 크레딧에 더 영향을 줍니다.)

그래서 저희가 2026년 6월 실제 모델 선택 화면에서 립싱크 모델별 초당 크레딧을 그대로 옮겨왔습니다. (숫자가 낮을수록 저렴)

립싱크 모델	초당 크레딧	특징(공식 설명)
Veed Lipsync	41	빠르고 저렴한 비디오 립싱크
Sync Lipsync 2 Pro	661	실사·애니·AI 콘텐츠용 스튜디오급
Creatify Aurora	848	이미지에서 최고 품질, 안내된 립싱크
Sync 3	1,053	시각 인텔리전스, 프로페셔널 품질
HeyGen Avatar 4 (신규)	1,212	표현력 있는 움직임, 최대 1080p
Veed Fabric	1,212	어떤 이미지든 현실적, 최대 720p
OmniHuman 1.5	1,267	현실적 립싱크, 비인간 얼굴 지원

⚠️ '초당'이라는 함정, 길이에 그대로 비례합니다

초당 크레딧이라 영상이 길수록 비용이 쭉쭉 올라갑니다.
예) Sync 3(1,053/초)로 30초 영상 → 약 31,600 크레딧. 1분이면 약 63,000 크레딧.
Creator 플랜(월 약 12만 크레딧) 기준이면 30초짜리 3~4편 수준. 솔직히 넉넉하진 않습니다.
대신 Veed Lipsync(41/초) 같은 저렴 모델은 30초에 약 1,230 크레딧, 같은 크레딧으로 수십 배 더 뽑습니다.
품질↔비용 트레이드오프예요.
여기에 아바타(이미지) 생성 크레딧은 별도입니다. 위 초당 크레딧은 '말하는 영상(립싱크)' 부분 비용.

※ 초당 크레딧은 2026년 6월 모델 선택 화면 실측값. 모델·가격 정책은 수시로 바뀌니 생성 직전 화면의 예상 크레딧을 꼭 확인하세요.

👉 직접 아바타 만들어보기 →

🪪 한 번 만들면 계속 쓴다: 지속 정체성 & '스타일' 변형

아바타의 진짜 강점은 '재사용'입니다.

한 번 만든 아바타는 '고정된 정체성(persistent identity)'을 갖습니다.
쉽게 말해, 한 번 만든 그 인물을 여러 영상에 계속 똑같은 얼굴로 등장시킬 수 있다는 뜻이에요.
영상마다 사람 얼굴이 미묘하게 달라지는 사고가 없습니다.

여기에 'Styles(스타일)' 기능이 붙습니다.
같은 인물의 핵심 정체성은 그대로 두면서, 다음을 바꾼 변형을 만들 수 있어요.

카메라 각도 (정면 / 측면 등)
의상 (정장 / 캐주얼 등)
배경과 조명

예를 들어 '우리 브랜드 안내자' 한 명을 만들어두고,
오피스 배경 정장 버전, 야외 캐주얼 버전, 클로즈업 버전을 같은 사람으로 뽑아 쓰는 거죠.
이 아바타와 스타일은 생성 횟수에 상관없이 계속 유지되어 여러 프로젝트에서 재활용됩니다.

📌 이게 왜 중요하냐면 ⚡
유튜브 채널이든 광고든, '같은 얼굴'이 꾸준히 나와야 시청자가 브랜드를 기억합니다.
매번 촬영하거나 매번 다른 AI 인물을 쓰면 일관성이 무너지죠.
아바타는 '한 번 만들고 평생 우려먹는' 출연자를 갖게 해줍니다.

🔁 Flows로 '대량 생산': UGC 광고를 한 번에 찍어내기

여기서부터는 조금 더 고급, 하지만 마케터·UGC 제작자에겐 꿀입니다.

💡 용어 두 개만

Flows(플로우) = 작업을 자동 컨베이어벨트처럼 줄줄이 이어 실행하는 자동화 기능.
UGC 광고 = '사용자가 직접 찍은 듯한' 후기 스타일 광고. 요즘 인스타·틱톡·쇼츠에서 제일 잘 먹히는 포맷이죠.

이번에 Flows에 'Avatar 노드(아바타 블록)'가 새로 추가됐습니다.
이걸 끼우면 아바타 영상 생성을 자동 파이프라인에 연결할 수 있어요.

공식 예시 흐름을 그대로 옮기면 이렇습니다.

① 제품 브리프(간단한 제품 설명) 입력
② AI가 대본 생성
③ 보이스오버(나레이션 음성) 생성
④ 아바타가 그 대본을 말하는 영상 생성

그리고 이걸 제품별 · 언어별 · 훅별로 한꺼번에(batch) 실행합니다.
여기서 '훅(hook)'은 영상 앞 3초를 잡는 도입 멘트를 말해요.

예를 들어 훅만 5개로 바꿔서("이거 모르면 손해", "3초만 보세요" 등) 한 번에 5가지 광고 변형을 찍어낼 수 있는 거죠.
한국 쇼츠·릴스 광고처럼 "어떤 도입이 잘 먹히나"를 여러 버전 돌려보는 작업에 딱입니다.
매번 다시 촬영할 필요가 없으니까요.

⚖️ HeyGen · Synthesia랑 뭐가 다를까? (솔직 비교)

"이미 HeyGen·Synthesia 있는데 왜 일레븐랩스?"
당연한 질문입니다. 핵심만 짚어드릴게요. (가격은 공식·비교 자료 기준이며 프로모션·결제주기에 따라 달라질 수 있습니다.)

서비스	강점 / 결제 방식	이럴 때 좋아요
일레븐랩스 아바타	목소리가 본업 → 음성+얼굴을 한 곳에서. 크레딧 기반	음성 퀄리티가 최우선, 다국어 보이스
Synthesia	'분(分)' 단위 과금이라 예산 계산 쉬움. 아바타 사실성 평이 좋음	기업 교육·사내 영상
HeyGen	크레딧 기반. 기존 영상 다국어 번역에 강함	마케팅·해외 콘텐츠 번역

핵심 차별점을 한 줄로 요약하면 이렇습니다.

일레븐랩스는 '음성 우선 통합'입니다.
원래 목소리가 세계 최고급인 회사가, 그 목소리에 얼굴(립싱크)을 붙여 한 화면에서 한 번에 뽑게 한 것.
오디오를 이리저리 옮기지 않아도 되고, 음성-입 싱크가 더 정밀하다는 게 강점이죠.

가격 감만 살짝 짚으면 이렇습니다. (2026년 6월 기준)

HeyGen: 크레딧 단위. 대표 아바타 기능(Avatar IV) 기준 분당 약 $1(Creator 플랜).
Synthesia: 분(分) 단위 구독. 연결제 환산 분당 약 $1.8~2.1.
일레븐랩스 아바타: 고른 립싱크 모델에 따라 분당 약 $0.45(저렴)~$13.8(프리미엄)로 폭이 큽니다(위 초당 크레딧 표 참고).

💰 그래서 결국 뭐가 더 쌀까? 2편에서 끝장 계산했습니다
솔직히 고화질로 많이 만들면 전용 플랫폼(HeyGen·Synthesia)이 분당 더 쌀 수 있고,
가끔·소량·통합 워크플로라면 일레븐랩스가 유리합니다.
"한 달에 몇 분 만드냐"로 갈리는 손익분기를 분당 실비용표로 끝까지 따져봤어요.
→ [아바타 비용 대결] 직접 구독 vs 일레븐랩스, 진짜 누가 싼지 보러가기 →

🚨 솔직하게, 아직 불확실한 것들
모델별 한 번에 만들 수 있는 최대 영상 길이와 아바타(이미지) 생성 자체의 크레딧은 모델·설정마다 달라 딱 떨어지게 공개돼 있진 않습니다.
(최대 해상도도 모델마다 달라요. 위 표처럼 720p까지인 모델, 1080p까지인 모델이 섞여 있습니다.)
대신 정확한 비용은 생성 직전 화면에 예상 크레딧으로 표시되니 그걸 보고 누르면 됩니다.
또 출시 시점엔 API(외부 연동) 미제공이며 추후 제공 예정입니다.

🙋 그래서, 누구한테 좋을까?

저희가 보기에 이런 분들에게 특히 강력합니다.

쇼츠·릴스 크리에이터: 얼굴 노출 부담 없이, 일관된 'AI 출연자'로 채널을 운영.
UGC 광고·퍼포먼스 마케터: 훅만 바꿔 광고 변형을 대량 생산, A/B 테스트가 쉬움.
강의·교육 콘텐츠 제작자: '같은 강사'로 시리즈 강의를, 과목·언어별로 확장.
브랜드·SNS 운영자: 매번 촬영 없이 소셜 콘텐츠를 꾸준히 찍어냄.
다국어 설명 영상이 필요한 분: 일레븐랩스의 다국어 음성과 결합해 현지화 영상 제작.

반대로, 완전 무료로 영상을 뽑고 싶은 분에겐 아직 아쉽습니다.
아바타(영상 생성)는 유료 플랜에서만 쓸 수 있거든요(무료 플랜은 영상 생성 불가).
다행히 ElevenCreative의 모든 유료 플랜에서 현재 이용 가능합니다.

❓ 자주 묻는 질문

Q. 사진 한 장만 있으면 바로 아바타를 만들 수 있나요?
기술적으론 사진 1장으로도 만들 수 있고, 사진 없이 글(텍스트 프롬프트)로 묘사해서 만들 수도 있습니다.
다만 공식 안내는 같은 인물의 여러 각도 사진 3~5장을 권장합니다.
1장만 쓰면 영상마다 얼굴이 일관되지 않을 수 있거든요. 안정적인 결과를 원하면 여러 장을 올리세요.

Q. 무료 플랜으로도 말하는 아바타 영상을 만들 수 있나요?
아니요. 아바타 영상 생성은 유료 플랜에서만 가능합니다(무료 플랜은 영상 생성 제한).
다만 ElevenCreative의 모든 유료 플랜에서 쓸 수 있고, 비용은 기존 'Image & Video' 크레딧으로 차감됩니다.
고른 모델·해상도·영상 길이에 따라 달라지며, 생성 전 화면에 예상 크레딧이 미리 표시되니 보고 결정하시면 됩니다.

Q. HeyGen·Synthesia 대신 일레븐랩스 아바타를 써야 할 이유가 있나요?
가장 큰 차이는 '음성'입니다.
일레븐랩스는 원래 TTS·보이스 클론이 본업이라, 목소리 품질과 다국어 음성이 강합니다.
거기에 얼굴(립싱크)을 붙여 오디오를 다른 서비스로 옮기지 않고 한 곳에서 한 번에 영상을 만든다는 게 핵심 강점이에요.
음성 퀄리티가 최우선이거나 다국어 영상을 자주 만든다면 매력적입니다.
(반대로 분 단위 예산 관리가 중요하면 Synthesia, 기존 영상 다국어 번역이 주 목적이면 HeyGen도 좋은 선택입니다.)

Q. 영상마다 얼굴이 달라지지 않게, 같은 인물로 계속 쓸 수 있나요?
네, 그게 아바타의 핵심입니다.
한 번 만든 아바타는 고정된 정체성을 유지해서, 생성 횟수와 상관없이 여러 영상에 같은 얼굴로 등장합니다.
'Styles(스타일)' 기능으로 각도·의상·배경만 바꾼 변형도 만들 수 있어, 정체성은 유지하면서 다양한 연출이 가능해요.

🎁 마치며

오늘 핵심만 다시 정리할게요.

Avatars = 사진·글로 만든 AI 인물이, 대본을 입 맞춰 말하는 영상으로 나오는 신기능.
목소리와 입 맞추기가 한 화면에서 한 번에 → 오디오 옮기는 수고 없음, 싱크 더 정밀.
한 번 만든 아바타는 계속 재사용, Styles로 각도·의상·배경 변형.
Flows의 Avatar 노드로 UGC 광고·쇼츠를 훅·언어별 대량 생산.
가격·길이·자동 선택 모델 등 일부 수치는 미공개 → 생성 전 표시되는 크레딧을 확인하세요.

'목소리의 끝판왕'이 이제 '얼굴'까지 손에 쥐었습니다.
음성에서 영상까지 한 흐름으로 이어지는 시대가 열린 거죠.

유료 플랜을 쓰고 계신다면, 오늘 당장 사진 몇 장 올려
나만의 AI 출연자를 한 명 만들어보세요.
대본 한 줄이 '말하는 영상'으로 바뀌는 건, 한 번 해보면 1분이면 체감됩니다!

👉 일레븐랩스 아바타 시작하기 →

다음 글에서 또 더 유익한 꿀팁으로 찾아뵙겠습니다.
Sonetho였습니다. ⚡