AI 에이전트 벤치마크의 허상: 점수 조작이 가능한 이유와 시사점 | StartupSchool