최고의 오픈 소스 자막 생성기? Canary Qwen 2.5B + Whisper 완벽 가이드
(dev.to)
NVIDIA의 Canary-Qwen-2.5B 모델이 Whisper를 압도하는 영어 음성 인식 성능과 경이로운 처리 속도를 입증하며, 로컬 GPU를 활용한 고효율 자막 생성 및 비용 절감이 가능한 새로운 AI 기술 표준으로 주목받고 있습니다.
이 글의 핵심 포인트
- 1NVIDIA Canary-Q뮬-2.5B 모델, 영어 음성 인식 WER 5.91% 달성으로 SOTA 기록
- 2실시간 전사 속도 대비 최대 46배 빠른 처리 성능 구현
- 3Whisper 모델은 다국어 지원 및 단어 단위 타임스탬프가 필요한 경우의 대안으로 유지