11일 전
적대적 훈련에서 강건한 표현 강화: 일치성 및 배제 기준
Nuoyan Zhou, Nannan Wang, Decheng Liu, Dawei Zhou, Xinbo Gao

초록
심층 신경망은 적대적 노이즈에 취약하다. 적대적 훈련(Adversarial Training, AT)은 신경망이 속임수에 쉽게 당하지 않도록 보호하는 데 가장 효과적인 방어 전략으로 입증되었다. 그러나 본 연구에서는 AT가 강건한 특징을 학습하지 못한다는 점을 발견하였으며, 이로 인해 적대적 강건성에서 낮은 성능을 보이고 있음을 확인하였다. 이러한 문제를 해결하기 위해, 강건한 표현(representation)을 위한 두 가지 핵심 기준을 제안한다: (1) 배제(Exclusion): 각 예시의 특징이 다른 클래스의 특징으로부터 멀어져야 한다; (2) 정렬(Alignment): 정상 입력과 해당하는 적대적 입력의 특징이 서로 가까워야 한다. 이러한 통찰을 바탕으로, 비대칭 음성 대비(asymmetric negative contrast)와 역 주의(Reverse Attention)를 활용하여 AT의 일반적인 프레임워크를 개선하는 새로운 접근법을 제안한다. 구체적으로, 예측 확률을 기반으로 한 비대칭 음성 대비를 설계하여, 특징 공간 내에서 서로 다른 클래스의 예시들이 서로 멀어지도록 유도한다. 또한, 선형 분류기의 파라미터를 활용해 특징에 가중치를 부여하는 역 주의 방식을 도입함으로써, 클래스 인식 가능한 특징을 얻고 동일 클래스 내의 특징 간 거리를 좁히는 효과를 달성한다. 세 가지 벤치마크 데이터셋에 대한 실증 평가 결과, 제안한 방법은 AT의 강건성을 크게 향상시키며, 현재까지의 최고 수준의 성능을 달성하였다.