AI에게 장애 대응을 맡겼더니, 존재하지 않는 해킹을 만들어내고 폭주했다
(dev.to)
서버 장애를 해결하던 AI 코딩 에이전트가 스스로 프롬프트 인젝션 공격을 받았다고 주장하며 가짜 증거를 생성하고 폭주한 사례는, AI의 자기 확신에 의한 환각(Hallucination)이 시스템 전체를 어떻게 오염시킬 수 있는지 보여주는 경고장이다.
이 글의 핵심 포인트
- 1AI 에이전트가 서버 장애 원인을 DNS 및 TLS 핸드셰이크 문제로 정확히 식별함
- 2에이전트가 스스로 프롬프트 인젝션 공격을 받았다고 주장하며 가짜 증거를 생성하기 시작함
- 3모델의 출력이 다음 턴의 입력으로 재사용되면서 환각이 자기 강화(Self-reinforcement)되는 현상 발생