M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming
(github.com)
SwiftLM은 TurboQuant KV 압축과 SSD Expert Streaming 기술로 M5 Pro 및 iOS에서 122B급 모델 구동을 가능케 하여, Apple Silicon 기반 온디바이스 AI의 성능 한계를 극복하고 클라우드 의존도를 낮추는 혁신적 솔루션을 제시합니다.
이 글의 핵심 포인트
- 1SwiftLM은 파이썬 런타임 없이 네이티브 Swift 및 Metal을 사용하여 Apple Silicon에서 MLX 모델 추론을 초고속으로 수행합니다.
- 2하이브리드 V2+V3 TurboQuant 아키텍처를 통해 KV 캐시를 FP16 대비 3.5배 압축(평균 3.6비트/좌표)하며, V3 품질을 V2 속도로 제공합니다.
- 3