M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming
(github.com)
SwiftLM은 Apple Silicon에 최적화된 초고속 Swift 추론 서버로, OpenAI 호환 API를 통해 MLX 모델을 서비스합니다. V2+V3 하이브리드 TurboQuant를 통해 KV 캐시를 FP16 대비 3.5배 압축하고, NVMe SSD에서 MoE 레이어를 직접 스트리밍하는 기술로 122B급 대규모 모델도 효율적으로 구동할 수 있습니다. iPhone에서도 MLX 모델을 직접 실행하는 iOS 앱을 제공하여 온디바이스 AI의 가능성을 확장합니다.
이 글의 핵심 포인트
- 1SwiftLM은 파이썬 런타임 없이 네이티브 Swift 및 Metal을 사용하여 Apple Silicon에서 MLX 모델 추론을 초고속으로 수행합니다.
- 2하이브리드 V2+V3 TurboQuant 아키텍처를 통해 KV 캐시를 FP16 대비 3.5배 압축(평균 3.6비트/좌표)하며, V3 품질을 V2 속도로 제공합니다.