Cohere, 5.42 WER 음성 모델 오픈소스 공개 - 실제 오디오 테스트 결과 확인
(dev.to)
Cohere가 Whisper-large-v3보다 높은 정확도와 빠른 속도를 갖춘 오픈소스 음성 인식 모델 'Cohere Transcribe'를 공개하며, 이는 기업들이 API 의존도를 낮추고 AI 서비스의 비용 효율성과 데이터 보안을 동시에 확보할 수 있는 새로운 대안을 제시합니다.
이 글의 핵심 포인트
- 1Cohere Transcribe는 LibriSpeech 벤치마크에서 5.42%의 WER을 기록하며 Whisper-large-v3(5.7%)를 앞섬
- 2Whisper 대비 약 30% 빠른 추론 속도와 개선된 스트리밍 지연 시간(첫 토큰 생성 1.8초 vs 2.5초) 제공
- 3