N-Day-Bench: LLM은 실제 코드에서 실제 취약점을 찾을 수 있을까?
(dev.to)
N-Day-Bench 벤치마크를 통해 LLM의 실제 코드 취약점 탐지 능력을 분석합니다. LLM은 단순한 패턴 기반의 보안 위협은 식별할 수 있지만, 비즈니스 로직이나 복잡한 컴포넌트 간 상호작용에서 발생하는 고도화된 취약점 탐지에는 명확한 한계가 있음을 보여줍니다.
이 글의 핵심 포인트
- 1N-Day-Bench는 실제 CVE가 포함된 프로덕션 코드를 대상으로 LLM의 보안 탐지 능력을 평가함
- 2최상위 모델(GPT-4o, Claude 3.5 등)의 직접적인 취약점 탐지율은 20~35% 수준에 머묾
- 3