2달 전

대립 공격에 저항하는 딥 러닝 모델로의 발전

Aleksander Madry; Aleksandar Makelov; Ludwig Schmidt; Dimitris Tsipras; Adrian Vladu
대립 공격에 저항하는 딥 러닝 모델로의 발전
초록

최근 연구에서는 딥 뉴럴 네트워크가 적대적 예제(adversarial examples)에 취약하다는 것을 입증하였습니다. 이들 입력은 자연 데이터와 거의 구분할 수 없을 정도로 유사하지만, 네트워크에서 잘못 분류됩니다. 실제로, 최신 연구 결과들은 적대적 공격의 존재가 딥 러닝 모델의 고유한 약점일 수 있다는 점을 시사하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 강건 최적화(robust optimization)의 관점에서 신경망의 적대적 견고성(adversarial robustness)을 연구합니다. 이 접근법은 이 주제에 대한 과거 연구의 대부분을 포괄하고 통합하는 광범위한 시각을 제공합니다. 또한 원칙적인 성격 덕분에 신경망을 훈련하고 공격하는 데 사용되는 안정적이며 일정한 의미에서 보편적인 방법들을 식별할 수 있게 합니다. 특히, 이러한 방법들은 모든 적에게 대응할 수 있는 구체적인 보안 보장을 명시합니다. 이러한 방법들을 통해 우리는 다양한 범위의 적대적 공격에 대해 저항력을 크게 향상시킨 네트워크를 훈련할 수 있습니다. 또한, 1차 적(first-order adversary)에 대한 보안이 자연스럽고 광범위한 보안 보장으로 제시됩니다. 우리는 이러한 잘 정의된 클래스의 적에 대한 견고성이 완전히 저항력 있는 딥 러닝 모델로 나아가는 중요한 단계라고 믿습니다. 코드와 사전 훈련된 모델은 https://github.com/MadryLab/mnist_challenge 및 https://github.com/MadryLab/cifar10_challenge에서 이용 가능합니다.

대립 공격에 저항하는 딥 러닝 모델로의 발전 | 최신 연구 논문 | HyperAI초신경