ElevenLabs 새로운 아키텍처로 표현력 높인 TTS 모델 선보여

ElevenLabs가 TTS 모델 ‘Eleven v3 (alpha)’를 출시했다. 새로운 아키텍처 기반으로 설계된 Eleven v3는 텍스트를 ‘읽어 주는’ 단계를 넘어 실제 배우처럼 ‘연기’하며, 등장인물을 바꾸거나 문장 중간에 톤을 전환할 수 있다. 또한 속삭임, 웃음소리, 숨 소리, 박수 등의 지시에도 실제 음성과 구별하기 힘든 자연스러움을 구현했다.

Eleven v3는 알파 버전인 만큼 기존 모델보다 더 세부적인 지시가 필요하지만, 그만큼 뛰어난 성능을 최대한 끌어낼 수 있다. 그 결과 만들어지는 음성은 실제 인간이 말하는 듯한 감정과 리얼리티로 가득 차 듣는 이에게 깊은 감동을 준다.

최신 모델의 지원 언어는 기존의 32개에서 70개 이상으로 늘었다. 앞으로도 업데이트를 통해 사용성을 더욱 향상시킬 예정이다.

Eleven v3는 콘텐츠 창작자, 개발자 및 기업들이 오디오북, 캐릭터 대화, 인터랙티브 미디어 제작 등 표현력이 중요한 콘텐츠를 만들 때 특히 효과적이다. 더욱 정교한 음성 표현 조정이 가능하며, 콘텐츠에 맞는 적절한 지시가 고품질 음성 생성의 비결이다.

실시간 대화형 AI 등 낮은 지연시간이 중요한 경우에는 기존 v2.5 모델 사용을 권장하며, 현재 v3 실시간 버전을 개발 중이다.

Eleven v3는 음성 생성에 진정한 표현력을 더했다. 문장 내에서 톤과 감정의 세부 조정, 단 한 번의 녹음으로 화자 전환이 가능해 마치 하나의 연기처럼 자연스러운 창작이 가능하다.

ElevenLabs의 공동창업자 겸 CEO Mati Staniszewski는 “Eleven v3는 감정과 표현, 비언어적 지시까지 이해하고 제어할 수 있는 가장 표현력이 뛰어난 TTS 모델이다. 오디오 태그를 통해 속삭임, 웃음, 억양 변경, 노래 지시까지 가능하다. 70개 이상의 언어로 모든 대본에 맞춰 속도, 감정, 스타일을 자유롭게 조정할 수 있다. 우리의 글로벌 미션으로 이 모델을 70개 이상의 언어로 확장한 것을 기쁘게 생각한다”며 “이번 릴리스는 공동 창업자인 Piotr Dabkowski와 그의 탁월한 팀의 비전과 리더십 덕분이다. 뛰어난 제품을 만드는 과정의 어려움을 극복하고 패러다임 시프트를 이뤄낸 성과에 매우 기쁘다. 앞으로 더욱 발전할 수 있도록 최선을 다하겠다”고 밝혔다.

많은 크리에이터와 기업이 원했던 한국어 TTS가 이번 v3에서 크게 발전했다. 정교한 감정 표현은 물론 ‘사투리’, ‘축구 중계 스타일’과 같은 특별한 요청도 자연스럽게 표현할 수 있다.

한편 일레븐랩(ElevenLabs)은 AI 음성 기술의 연구 및 실용화 분야에서 활동하는 기업이다. CEO 마티 스타니스제프스키(Mati Staniszewski)와 CTO 피오트르 돔브코프스키(Piotr Dąbkowski, TIME지 선정 ‘AI Top 100 Innovators’)는 폴란드 바르샤바 출신의 소꿉친구로, 자국에서 상영되는 영화 등의 더빙 품질이 낮다는 문제의식에서 공동 창업의 아이디어를 얻었다.

지난 1년 동안 직원 수를 30명에서 160명으로 확장했으며 현재는 런던·뉴욕·바르샤바에 거점을 두고 있다. 또한 2025년 1월에는 시리즈 C 라운드의 자금 조달을 완료했다.

일레븐랩은 ‘모든 사람이 다양한 목소리, 언어, 소리를 통해 정보에 접근할 수 있는 미래’를 미션으로 삼고 있으며, 음성 AI의 가능성을 확장하는 독보적인 통합형 플랫폼 구축에 도전하고 있다.

이승주 기자 lsj9210@naver.com 이 기자의 다른 기사 보기

주요뉴스

주요뉴스

주요뉴스

주요뉴스

주요뉴스

주요뉴스

주요뉴스

ElevenLabs 새로운 아키텍처로 표현력 높인 TTS 모델 선보여

BEST 뉴스