-9.15pp에서 +0.61pp로: 네 번의 DPO 반복 실패를 통한 엔지니어링 여정
(dev.to)
DPO 기반 코딩 모델 학습 중 발생한 성능 저하 사례를 통해, 자동화된 검증을 넘어 데이터의 의미론적 무결성을 확보하는 정교한 데이터 큐레이션과 평가 엔지니어링이 모델 성능을 결정짓는 핵심 요소임을 입증합니다.
이 글의 핵심 포인트
- 1DPO 학습 3차 시도에서 HumanEval 성능이 87.20%에서 78.05%로 9.15pp 급락
- 2Assertion을 단순히 pass로 바꾸는 방식의 데이터가 모델에게 '에러를 무시하는 법'을 학습시키는 부작용 초래
- 34단계 검증 파이프라인(Invariant, Differential, Property, Fuzz test)이 논리적 오류(예: MCMC 알고리즘 오류)를 잡아내지 못하는 한계 노출