토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 어떻게 해결하는가
(news.future-shock.ai)
최근 LLM 아키텍처는 KV 캐시의 메모리 점유율을 획기적으로 줄여 추론 비용을 절감하고 있습니다. GPT-2의 토큰당 300KiB에서 Llama 3의 GQA (128KiB), DeepSeek V3의 MLA (68.6KiB) 같은 기술을 통해 메모리 사용량을 최소화하며, Mamba와 같은 새로운 모델은 아예 KV 캐시를 제거하기도 합니다. 이는 LLM의 운영 효율성과 접근성을 크게 향상시킬 것입니다.
이 글의 핵심 포인트
- 1GPT-2의 KV 캐시 비용은 토큰당 300 KiB로, 4,000 토큰 대화 시 1.2 GB의 GPU 메모리를 소모했습니다.
- 2Llama 3 (2024)는 GQA(Grouped-Query Attention)를 도입하여 토큰당 KV 캐시 비용을 128 KiB로 절반 이상 줄였습니다.