KV 캐시 압축, 터보퀀트 및 벡터별 섀넌 한계를 90만 배 뛰어넘다
(arxiv.org)
KV 캐시를 언어 모델의 구조를 따르는 시퀀스로 파악해 기존 TurboQuant 대비 최대 91만 배의 압축률을 구현한 신기술은, 초거대 모델의 추론 비용을 획기적으로 낮추고 GPU 메모리 한계를 극복할 혁신적 돌파구가 될 것으로 기대됩니다.
이 글의 핵심 포인트
- 1기존 벡터 단위 Shannon 한계를 극복하여 이론적 압축률을 최대 914,000배까지 향상
- 2Probabilistic Language Tries(PLT)를 활용한 확률적 접두사 중복 제거(Prefix Deduplication) 도입
- 3