15일 전

학습 가능한 경계 지도형 적대적 훈련

Jiequan Cui, Shu Liu, Liwei Wang, Jiaya Jia
학습 가능한 경계 지도형 적대적 훈련
초록

이전의 적대적 훈련은 자연 데이터에 대한 정확도를 희생함으로써 모델의 강건성을 높였다. 본 논문에서는 자연 데이터 정확도 저하를 최소화하는 방식을 제안한다. 우리는 하나의 정제된 모델이 출력하는 로짓(logit)을 다른 강건한 모델의 학습을 안내하는 데 활용한다. 이는 잘 훈련된 정제된 모델의 로짓이 자연 데이터의 가장 구분 가능한 특징, 예를 들어 일반화 가능한 분류 경계(classifier boundary)를 포함하고 있음을 고려한 것이다. 본 연구의 핵심은, 적대적 예제를 입력으로 받는 강건 모델의 로짓을 해당 자연 데이터를 입력으로 받는 정제된 모델의 로짓과 유사하게 제약하는 것이다. 이를 통해 강건 모델은 정제된 모델의 분류 경계를 이어받을 수 있다. 더불어, 이러한 경계 안내 방식은 높은 자연 데이터 정확도를 유지할 뿐만 아니라 모델의 강건성에도 기여함을 관찰하였으며, 이는 적대적 학습 공동체에 새로운 통찰을 제공하고 발전을 촉진한다. 마지막으로, CIFAR-10, CIFAR-100, Tiny ImageNet에서 실시한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다. 특히, 추가적인 진짜 또는 합성 데이터 없이 auto-attack 벤치마크 \footnote{\url{https://github.com/fra31/auto-attack}} 기준으로 CIFAR-100에서 새로운 최고 성능(SOTA)의 강건성을 달성하였다. 본 연구의 코드는 \url{https://github.com/dvlab-research/LBGAT}에서 공개되어 있다.

학습 가능한 경계 지도형 적대적 훈련 | 최신 연구 논문 | HyperAI초신경