Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)
(ollama.com)Ollama가 2026년 3월 30일부로 Apple의 MLX 프레임워크를 통해 Apple Silicon에서 구동되는 프리뷰 버전을 공개했습니다. 이는 M5 칩셋의 GPU Neural Accelerators를 활용하여 Ollama 0.19 버전에서 기존 대비 최대 2배 빠른 성능(예: 디코드 속도 112 tokens/s)을 제공하며, NVFP4 지원 및 캐싱 개선으로 로컬 LLM 추론의 효율성과 품질을 크게 향상시킵니다.
이 글의 핵심 포인트
- 1Ollama 0.19는 Apple Silicon용으로 Apple MLX 프레임워크를 기반으로 구축되어, 로컬 LLM 성능을 크게 향상시켰습니다.
- 2Apple M5, M5 Pro, M5 Max 칩셋의 새로운 GPU Neural Accelerators를 활용하여 TTFT(time to first token) 및 토큰 생성 속도(tokens per second)를 가속화합니다.