보안 연구원들, 프롬프트 인젝션으로 역할 모델 악용해 LLM에게 코카인 레시피를 얻어냈다
(theregister.com)
LLM의 보안 아키텍처가 텍스트 태그라는 취약한 형식을 기반으로 하고 있어, 공격자가 모델의 사고 과정을 모방하는 'CoT Forgery'를 통해 안전 가드레일을 무력화할 수 있다는 연구 결과가 발표되어 AI 보안의 근본적인 재설계 필요성이 제기되었습니다.
이 글의 핵심 포인트
- 1LLM은 텍스트 태그를 통해 역할을 구분하지만, 이는 스타일 기반의 취약한 식별 방식임
- 2'CoT Forgery' 공격은 모델의 <think> 모드 스타일을 모방하여 안전 가드레일을 우회함
- 3