Mistral Medium 3.5 128B, GPU 메모리 부족 없이 실행하는 방법
(dev.to)Mistral Medium 3.5 128B 실행 시 발생하는 VRAM 부족 문제를 해결하기 위해 FP8 양자화와 vLLM 텐서 병렬화를 활용한 최적화 전략을 제시하며, 이는 AI 서비스의 비용 효율성과 운영 경쟁력을 결정짓는 핵심적인 MLOps 역량을 다룹니다.
이 글의 핵심 포인트
- 1128B BF16 모델은 약 256GB의 VRAM이 필요하며, 단일 GPU로는 실행 불가능
- 2FP8(F8_E4M3) 양자화 가중치를 사용하면 최소 4개의 H100 GPU로 구동 가능
- 3vLLM의 --tensor-parallel-size 옵션을 통해 여러 GPU에 모델을 분산 배치 필수