구글의 최신 DiffusionGemma 오픈 AI 모델, 4배 빠른 속도 제공
(arstechnica.com)
구글 딥마인드가 공개한 DiffusionGemma는 기존의 순차적 생성 방식을 탈피해 텍스트를 병렬로 처리함으로써, 로컬 하드웨어 환경에서 기존 모델 대비 최대 4배 빠른 생성 속도를 구현하며 AI 추론 효율성의 새로운 지평을 열었습니다.
이 글의 핵심 포인트
- 1기존 autoregressive 방식과 달리 텍스트를 병렬로 생성하여 최대 4배 빠른 속도 제공
- 226B 파라미터 MoE 모델로, 추론 시에는 3.8B 파라미터만 활성화되어 효율적임
- 3RTX 5090 기준 초당 약 700토큰, H100 기준 1,000토큰 이상의 압도적 성능 구현