WSL2 + vllm에서 6GB VRAM에 Qwen2.5-7B-1M을 Windows transformers보다 못 넣는 역설적인 현상
(dev.to)
vLLM이 Windows의 VRAM 스필오버 기능을 활용하지 못해 저사양 GPU에서 모델 실행을 차단하는 역설적 현상을 분석하며, 효율적인 AI 배포를 위해 타겟 OS의 메모리 관리 메커니즘을 고려한 아키텍처 설계가 필수적임을 시사합니다.
이 글의 핵심 포인트
- 1RTX 350(6GB VRAM) 환경에서 vLLM(WSL2)은 KV Cache 부족(-0.94GiB)으로 인해 모델 로드 자체에 실패함
- 2Windows Transformers는 WDDM의 PCIe 스필오버(System RAM 활용) 덕분에 4k 컨텍스트까지 느린 속도로 구동 가능
- 3