HN에 소개합니다: M3 Pro에서 Gemma E2B를 사용하여 오디오/비디오를 입력받아 음성으로 출력하는 실시간 AI
(github.com)
Parlor는 M3 Pro 칩셋에서 구동되는 온디바이스 실시간 멀티모달 AI로, 사용자의 음성 및 시각 입력을 받아 자연스러운 대화가 가능하게 합니다. Gemma 4 E2B와 Kokoro TTS를 활용해 서버 비용 없이 로컬에서 완벽하게 작동하며, 특히 언어 학습자를 위한 잠재력이 큽니다. 이는 AI 모델의 경량화와 온디바이스 AI 시대의 도래를 알리는 중요한 진전입니다.
이 글의 핵심 포인트
- 1Parlor는 M3 Pro에서 Gemma 4 E2B 및 Kokoro TTS를 활용하여 오디오/비디오 입력 및 음성 출력을 실시간으로 처리하는 온디바이스 멀티모달 AI입니다.
- 2기존에 RTX 5090과 같은 고성능 GPU가 필요했던 AI 모델을 M3 Pro 칩셋에서 구동 가능하게 하여 서버 비용을 제거하고 기술 접근성을 대폭 향상시켰습니다.