2달 전

대립적 강건성의 지역 선형화를 통한 접근

Chongli Qin; James Martens; Sven Gowal; Dilip Krishnan; Krishnamurthy Dvijotham; Alhussein Fawzi; Soham De; Robert Stanforth; Pushmeet Kohli
대립적 강건성의 지역 선형화를 통한 접근
초록

적대적 훈련은 적대적, 규범 제약된 변동에 대해 견고한 딥 뉴럴 네트워크를 훈련시키는 효과적인 방법론입니다. 그러나 모델의 크기와 입력 차원 수가 증가함에 따라 적대적 훈련의 계산 비용은 급격히 상승하여 실질적으로 불가능해집니다. 또한, 더 저렴하고 따라서 더 약한 적대자에 대한 훈련은 약한 공격에는 견고하지만 강한 공격에는 무너지는 모델을 생성합니다. 이 현상은 종종 그래디언트 은폐(gradient obfuscation)로 인해 발생한다고 여겨집니다. 이러한 모델들은 훈련 예제 근처에서 손실 함수가 매우 비선형적이어서 그래디언트 기반 공격이 성공하기 어려우나, 그럼에도 불구하고 적대적 예제는 여전히 존재합니다. 본 연구에서는 훈련 데이터 근처에서 손실 함수가 선형적으로 행동하도록 유도하는 새로운 정규화기를 소개합니다. 이는 그래디언트 은폐를 처벌하면서 견고성을 강화하는 역할을 합니다. CIFAR-10과 ImageNet에서 수행한 광범위한 실험을 통해 우리의 정규화기를 사용하여 훈련된 모델들이 그래디언트 은폐를 피하고 적대적 훈련보다 상당히 빠르게 훈련될 수 있음을 보여줍니다. 이 정규화기를 사용하여, ImageNet에서 반경 4/255의 l-무한대 적대적 변동에 대해 타겟팅되지 않은 강력한 화이트박스 공격 하에서 47%의 적대적 정확도를 달성하였습니다. 또한, CIFAR-10에서 8/255에서 최신 기술 수준의 결과를 일치시켰습니다.

대립적 강건성의 지역 선형화를 통한 접근 | 최신 연구 논문 | HyperAI초신경