ML 모델에 숨겨진 백도어 탐지: Mithridatium 구축하기
(dev.to)
사전 학습된 AI 모델의 백도어 공격을 탐지하는 오픈소스 프레임워크 Mithridatium이 공개되었으며, 이는 다양한 알고리즘으로 모델의 무결성을 검증하여 AI 공급망 보안을 강화하고 모델 신뢰성 확보를 위한 새로운 표준을 제시합니다.
이 글의 핵심 포인트
- 1Mithridatium: 사전 학습된 ML 모델의 백도어 및 포이즈닝 공격을 탐지하는 오픈소스 프레임워크
- 24가지 핵심 방어 전략 구현: FreeEagle(클래스 편향 분석), STRIP(입력 섭동 기반), MMBD(출력 패턴 분석), AEVA(적대적 공격 기반)
- 3