Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)
(ollama.com)Ollama가 2026년 3월 30일부로 Apple의 MLX 프레임워크를 통해 Apple Silicon에서 구동되는 프리뷰 버전을 공개했습니다. 이는 M5 칩셋의 GPU Neural Accelerators를 활용하여 Ollama 0.19 버전에서 기존 대비 최대 2배 빠른 성능(예: 디코드 속도 112 tokens/s)을 제공하며, NVFP4 지원 및 캐싱 개선으로 로컬 LLM 추론의 효율성과 품질을 크게 향상시킵니다.
- 1Ollama 0.19는 Apple Silicon용으로 Apple MLX 프레임워크를 기반으로 구축되어, 로컬 LLM 성능을 크게 향상시켰습니다.
- 2Apple M5, M5 Pro, M5 Max 칩셋의 새로운 GPU Neural Accelerators를 활용하여 TTFT(time to first token) 및 토큰 생성 속도(tokens per second)를 가속화합니다.
- 3Qwen3.5-35B-A3B 모델 기준, Ollama 0.19의 프리필 성능은 1810 tokens/s로 이전 0.18 버전의 1154 tokens/s 대비 56% 향상되었습니다.
- 4디코드 성능은 112 tokens/s로 이전 0.18 버전의 58 tokens/s 대비 약 93% 향상되었으며, `int4` 사용 시 134 tokens/s까지 예상됩니다.
- 5NVIDIA의 NVFP4 포맷을 지원하여 모델 정확도를 유지하면서 메모리 효율성을 높이고, 더 나은 캐싱(낮은 메모리 사용, 지능형 체크포인트, 스마트한 제거)으로 코딩 및 에이전트 작업을 더욱 효율적으로 만듭니다.
왜 중요한가
배경과 맥락
업계 영향
한국 시장 시사점
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.