Show HN: LLM의 결정론적 출력 테스트를 위한 새로운 벤치마크
(interfaze.ai)
다양한 모달리티에서 LLM의 구조화된 데이터 생성 시 형식 준수를 넘어 실제 값의 정확성을 정밀하게 평가하는 새로운 벤치마크 SOB의 등장은 AI 에이전트의 신뢰도 측정 기준을 형식 중심에서 내용의 무결성 중심으로 전환하는 계기가 될 것입니다.
이 글의 핵심 포인트
- 1기존 벤치마크의 한계인 '스키마 준수 여부만 확인하는 문제'를 해결하기 위해 '값의 정확도'를 측정하는 SOB 출시
- 2텍스트, 이미지, 오디오 3가지 모달리티를 모두 포함하여 데이터 추출 능력을 다각도로 평가
- 3Value Accuracy, JSON Pass Rate, Faithfulness 등 7가지 세부 지표를 통해 모델의 실패 원인을 정밀 분석 가능