SFT 오프라인 RL 온라인 RL: Mano-P의 세 단계 학습 파이프라인
(dev.to)
Mano-P는 SFT, Offline RL, Online RL로 이어지는 정교한 3단계 학습 파이프라인을 통해 에지 디바이스에서도 고성능 GUI 제어가 가능한 VLA 에이전트를 구현하며 AI 자동화의 새로운 기술적 이정표를 제시합니다.
이 글의 핵심 포인트
- 1Mano-P는 4B 파라미터 모델로 M5 Pro 칩에서 초당 약 80토큰의 디코딩 속도를 기록함
- 2OSWorld 전문 벤치마크에서 58.2%를 기록하며 전체 1위를 차지함
- 3SFT 단계에서는 전문가의 데모 데이터를 통해 시각적 접지(Visual Grounding)와 행동 어휘를 학습함