Back to Headlines

작은 수의 악성 문서로도 AI 모델에 백도어 공격 가능, 안티코프 연구 결과 공개

4일 전

인공지능 모델은 매우 적은 수의 악성 문서만으로도 백도어를 학습할 수 있다는 연구 결과가 나왔다. 앤트로픽의 연구에 따르면, 악성 데이터를 통해 모델을 훼손하는 '포이즌 트레이닝 공격'은 모델의 크기와 무관하게 작동하며, 오히려 더 큰 모델일수록 더 적은 양의 악성 데이터로도 공격이 성공할 수 있다. 이는 기존의 기대와 달리, 공격의 효과가 모델 규모에 따라 비례하지 않는다는 점에서 의미가 크다. 연구팀은 이로 인해 대규모 AI 모델의 보안 위험성이 기대 이상으로 높아졌음을 시사하며, 훈련 데이터의 신뢰성 검증과 보안 강화가 필수적임을 강조했다.

Related Links