TurboQuant MacBook Pro 파트 2: 퍼플렉시티, KL 발산, 그리고 M5 Max에서의 비대칭 K/V
(dev.to)
M5 Max MacBook Pro의 KV 캐시 양자화 분석을 통해 비대칭 K/V 방식이 품질 저하 없이 512K 이상의 초장문 컨텍스트 처리를 가능케 함을 증명함으로써, 로컬 하드웨어 기반 On-device AI 구현의 가능성을 제시했습니다.
이 글의 핵심 포인트
- 1q8_0 KV 캐시 양자화 시 4k 컨텍텍스트 기준 품질 저하(PPL delta)는 -0.0005로 거의 무시할 수준임
- 2비대칭 K/V 조합(-ctk q8_0 -ctv turbo4)은 512K 컨텍스트에서도 OOM 없이 작동하는 새로운 승자로 등극
- 3