PIGuard: Prompt Injection 가이드레일, 과잉 방어 완화를 통해 추가 노력 없이
(injecguard.github.io)
PIGuard는 대규모 언어 모델(LLM)의 프롬프트 인젝션 공격 방어 시 발생하는 '과잉 방어(over-defense)' 문제를 해결하는 새로운 가드 모델입니다. 'Mitigating Over-defense for Free (MOF)' 학습 전략과 새로운 평가 데이터셋 NotInject을 통해 기존 모델 대비 30.8% 향상된 정확도를 보이며, 경량화된 오픈소스 솔루션으로 제공됩니다.
이 글의 핵심 포인트
- 1PIGuard는 LLM 프롬프트 인젝션 방어 시 '과잉 방어' 문제를 해결하는 새로운 가드 모델이다.
- 2새로운 평가 데이터셋 NotInject은 339개의 트리거 단어가 포함된 정상 샘플로 구성되어 과잉 방어 측정을 가능하게 한다.
- 3