GPUStack v2.2: 모델 서빙부터 토큰 연산까지, 컴퓨팅 풀링에서 GPUaaS까지
(dev.to)
GPUStack v2.2는 모델 서빙의 안정성을 런타임 생애주기 전반으로 확대하고 Multi-LoRA 및 API 키 단위 토큰 정산을 지원함으로써, 단순한 추론 실행을 넘어 기업용 AI 서비스를 위한 운영 가능한 인프라로 진화하고 있습니다.
이 글의 핵심 포인트
- 1런타임 전체 생애주기에 걸친 모델 인스턴스 헬스 프로빙 및 자동 복구 기능 도입
- 2장애 추적을 위한 히스토리 로그, 분산 서브 인스턴스 로그, Ray 컨테이너 로그 접근성 강화
- 3vLLM MP(Model Parallelism) 기반의 새로운 자동 분산 배포 모드 지원