Show HN: 제가 만든 오픈소스 에이전트, Gemini-3-flash-preview에서 TerminalBench 1위 달성
(github.com)
오픈소스 AI 에이전트 Dirac이 Gemini-3-flash-preview로 TerminalBench-2 1위를 달성하며, AST 조작과 컨텍스트 관리로 비용을 64.8% 절감하고 아키텍처 설계로 모델의 한계를 극복할 수 있음을 입증했습니다.
이 글의 핵심 포인트
- 1TerminalBench-2 리더보드에서 Gemini-3-flash-preview 사용 시 65.2% 점수로 1위 달성
- 2기존 경쟁 에이전트 대비 평균 API 비용 64.8% 절감 (약 2.8배 비용 효율성)
- 3