Cassandra: 적대적 변형에서 트로이 목마 네트워크 탐지

심층 신경망은 높은 분류 정확도로 인해 여러 핵심 과제에 널리 활용되고 있다. 많은 경우, 사전 훈련된 모델은 트로이 목마 행동을 삽입하기 위해 훈련 파이프라인을 조작한 공급업체로부터 확보된다. 이러한 악성 행동은 공격자의 의도에 따라 트리거될 수 있으며, 심층 모델의 광범위한 배포에 심각한 위협을 가한다. 본 연구에서는 사전 훈련된 모델이 트로이 목마에 감염되었는지 여부를 검증하는 방법을 제안한다. 제안하는 방법은 네트워크 기울기에서 학습된 적대적 편향의 형태로 신경망의 지문(fingerprint)을 포착한다. 백도어를 네트워크에 삽입하면 결정 경계가 변화하며, 이러한 결정 경계는 적대적 편향에 효과적으로 코딩된다. 우리는 네트워크의 전역($L_\infty$ 및 $L_2$ 유계) 편향과 각 편향 내 고에너지 지역의 국소적 영역을 기반으로 트로이 목마 탐지용 이중 스트림 네트워크를 훈련한다. 전자는 네트워크의 결정 경계를, 후자는 알려지지 않은 트리거 형태를 각각 코딩한다. 또한 트로이 목마가 삽입된 네트워크에서 타겟 클래스를 식별하기 위한 이상 탐지 기법을 제안한다. 본 연구의 방법들은 트리거 유형, 트리거 크기, 훈련 데이터 및 네트워크 아키텍처에 관계없이 불변(invariant)하다. 제안된 방법은 MNIST, NIST-Round0, NIST-Round1 데이터셋을 대상으로 평가되었으며, 최대 1,000개의 사전 훈련된 모델을 포함하여 현재까지 가장 규모가 큰 트로이 목마 네트워크 탐지 연구를 수행하였다. 그 결과, 기존 최고 성능을 넘는 92% 이상의 탐지 정확도를 달성하여 새로운 최고 기준을 설정하였다.