제마 4 가속화: 멀티 토큰 예측 드래프터를 활용한 더 빠른 추론
(blog.google)
구글이 Gemma 4의 추론 속도를 최대 3배 높이는 멀티 토큰 예측 드래프터 기술을 공개하며, 모델의 지능 저하 없이 지연 시간을 단축해 실시간 AI 에이전트와 On-device AI의 대중화를 가속화할 전망입니다.
이 글의 핵심 포인트
- 1Gemma 4 모델에 MTP(Multi-Token Prediction) 드래프터를 도입하여 최대 3배 빠른 추론 속도 달성
- 2스펙큘레이티브 디코딩 기술을 통해 출력 품질 및 추론 로직의 저하 없이 지연 시간 단축
- 3메모리 대역폭 병목 현상을 해결하여 소비자용 GPU 및 에지 디바이스에서의 성능 극대화