당신의 LLM-as-a-Judge는 86%의 환각을 감지합니다. 42%는 당신의 파이프라인 문제입니다.
(dev.to)
LLM-as-a-Judge의 환각 감지 사례 중 42%가 API 호출 실패 등 파이프라인 오류로 인해 왜곡된 것으로 나타나, 모델 튜닝에 리소스를 낭비하지 않기 위해서는 인프라 에러를 필터링하는 다층적 평가 체계 구축이 시급합니다.
이 글의 핵심 포인트
- 1LLM-as-a-Judge가 측정한 86%의 환각률 중 42%는 실제 모델 문제가 아닌 인프라/API 오류였음
- 2API 호출 실패(level=ERROR) 시 Judge는 입력값과 요청 정보만을 보고 모델이 지시를 어겼다고 판단함
- 3