MegaTrain: 단일 GPU에서 100B+ 파라미터 LLM의 Full Precision 학습
(arxiv.org)
MegaTrain은 단일 GPU 환경에서 100B(1,000억 개) 이상의 파라미터를 가진 대규모 언어 모델(LLM)을 Full Precision(전정밀도)으로 학습할 수 있는 메모리 중심 시스템입니다. GPU를 연산 엔진으로만 활용하고 파라미터와 옵티마이저 상태를 CPU 메모리에 저장하는 방식을 통해 GPU VRAM의 한계를 극복합니다.
이 글의 핵심 포인트
- 1단일 H200 GPU와 1.5TB 호스트 메모리로 최대 120B 파라미터 모델 학습 가능
- 214B 모델 학습 시 DeepSpeed ZeRO-3 대비 1.84배 높은 처리량 달성
- 3