하루에 하나씩 살펴보는 오픈 소스 프로젝트 (51번째): Microsoft의 VibeVoice - 한 번에 90분 분량의 오디오를 처리하는 음성 AI
(dev.to)
마이크로소프트가 공개한 VibeVoice는 초저주파수 토크나이저를 통해 최대 90분의 오디오를 단일 모델로 처리함으로써, 기존의 문맥 유지 한계를 극복하고 오디오 콘텐츠 제작의 자동화와 비용 혁신을 이끌 혁신적인 음성 AI입니다.
이 글의 핵심 포인트
- 17.5Hz 초저주파수 토크나이저를 통한 3,200배의 압도적 압축률 달성
- 2최대 90분 분량의 다중 화자(4인) 음성 합성(TTS) 가능
- 3