5일 만에 세 번의 LLM 관측 가능성 감사: 각각의 수정 사항은 다음 버그를 드러냈다
(dev.to)
LLM 관측 가능성 감사 결과 인프라 버그 수정이 평가 지표의 포화를 초래해 모델 성능을 오판하게 만드는 현상이 발견되었으며, 이는 AI 서비스의 비용 최적화를 위해 평가 루브릭의 변별력을 확보하는 것이 필수적임을 시사합니다.
이 글의 핵심 포인트
- 1초기 감사 결과 32%의 높은 에러율과 토큰 제한 버그, 과도한 비용 발생 확인
- 2인프라 수정 후 에러율은 0%로 개선되었으나, 평가 지표가 1.0으로 포화되는 변별력 상실 문제 발생
- 3평가 루브릭의 한계로 인해 1.2B 모델과 120B 모델의 정확도가 동일하게 측정되는 현상 발견