STT, LLM, Gradio를 활용한 음성 AI 어시스턴트 구축하기
(dev.to)
이 기사는 AssemblyAI(STT), Ollama(로컬 LLM), Gradio를 결합하여 음성 명령을 통해 파일 생성, 코드 생성, 텍스트 요약 등의 작업을 수행하는 '음성 AI 어시스턴트' 구축 과정을 다룹니다. 특히 클라우드 API의 한계를 극복하기 위해 로컬 LLM을 활용하고, 정규표현식과 규칙 기반 검증을 통해 LLM의 불완전한 출력을 보완하는 실전적인 엔지니어링 접근법을 제시합니다.
이 글의 핵심 포인트
- 1AssemblyAI(STT), Ollama(로컬 LLM), Gradio를 통합한 엔드투엔드 음성 AI 파이프라인 구축
- 2클라우드 API 비용 및 할당량 문제를 해결하기 위해 로컬 LLM(phi 모델) 도입
- 3