한 달 동안 다중 에이전트 AI 실패 예측을 시도했습니다. 실패했는데, 그 실패를 통해 배운 점은 다음과 같습니다.
(dev.to)
다중 에이전트 AI 시스템의 실패를 예측하려던 실험이 실패로 끝났지만, 이를 통해 단순한 실패 예측보다 에점 간 중복 작업으로 인한 토큰 낭비를 방지하는 것이 비용 효율성 측면에서 더 중요한 비즈니스 기회임을 발견했습니다.
이 글의 핵심 포인트
- 1다중 에이전트 실패 예측 실험의 AUC가 목표치(0.80)에 훨씬 못 미치는 0.46을 기록하며 실패함
- 2실패 신호로 사용한 지표가 실제로는 실행 시간(Trace Length)과 0.86의 높은 상관관계를 가진 오류였음이 밝혀짐
- 3