Show HN: Agent-skills-eval – 에이전트 기술이 출력 개선에 기여하는지 테스트하기
(github.com)
agent-skills-eval은 Anthropic의 Agent Skills 표준을 기반으로 에이전트 기술의 성능 개선을 정량적으로 검증하는 프레임워크로, 데이터 기반의 실험적 근거를 통해 AI 에이전트의 도메인 지식 주입 효과와 기술적 신뢰성을 객관적으로 입증할 수 있게 해줍니다.
이 글의 핵심 포인트
- 1Anthropic의 Agent Skills(SKILL.md) 표준 기반 성능 검증 도구
- 2스킬 적용 전(baseline)과 후(with_skill)의 비교를 통한 정량적 성능 향상(lift) 측정
- 3