15일 전

엔셈블 엣리웨어리어: 적대적 로버스트성 위한 다중 스케일 아그리게이션

Stanislav Fort, Balaji Lakshminarayanan
엔셈블 엣리웨어리어: 적대적 로버스트성 위한 다중 스케일 아그리게이션
초록

대조 예시(Adversarial examples)는 심층 신경망의 강건성, 신뢰성 및 일치성에 중대한 도전을 제기한다. 본 연구에서는 다중 해상도 입력 표현과 중간층 예측의 동적 자기앙상블(dynamic self-ensembling)을 활용하여 높은 품질의 표현을 도출함으로써 대조적 강건성을 달성하는 새로운 간편한 접근법을 제안한다. 우리는 중간층 예측이 전체 분류기의 오류를 유도하기 위해 설계된 대조 공격에 대해 내재적으로 강건함을 입증하였으며, 이를 바탕으로 비크리의 경매(Vickrey auction) 기반의 강건한 집계 메커니즘을 제안한다. 이 메커니즘을 \textit{CrossMax}라 명명하였다. 다중 해상도 입력과 강건한 앙상블을 결합함으로써, 적대적 훈련이나 추가 데이터 없이도 CIFAR-10 및 CIFAR-100 데이터셋에서 뚜렷한 대조적 강건성을 달성하였다. 특히, 미세조정된 ImageNet 사전 훈련된 ResNet152 모델을 사용하여 RobustBench AutoAttack 테스트 세트($L_\infty=8/255$)에서 CIFAR-10에 대해 약 72%, CIFAR-100에 대해 약 48%의 적대적 정확도를 달성하였다. 이는 CIFAR-10에서 상위 3개 모델 수준의 성능을 달성한 것으로, 기존 최고 수준의 전용 접근법 대비 CIFAR-100에서 +5%의 성능 향상을 보였다. 추가적으로 단순한 적대적 훈련을 적용하면, CIFAR-10에서 약 78%, CIFAR-100에서 약 51%의 성능을 기록하여 각각 SOTA(SOTA: State-of-the-art) 성능을 5%, 9% 향상시키며, 더 어려운 데이터셋에서 더욱 두드러진 성능 향상을 확인할 수 있었다. 우리는 광범위한 실험을 통해 제안한 접근법의 타당성을 검증하였으며, 적대적 강건성과 심층 표현의 계층적 특성 간의 상호작용에 대한 통찰을 제공하였다. 또한, 본 모델에 대한 간단한 기울기 기반 공격이 타겟 클래스에 대한 인간이 이해할 수 있는 이미지 및 해석 가능한 이미지 변화를 유도함을 보였다. 부가적으로, 본 연구에서 제안한 다중 해상도 사전 지식을 활용하여 사전 훈련된 분류기 및 CLIP 모델을 제어 가능한 이미지 생성기로 전환하였으며, 대규모 시각언어 모델에 대해 성공적인 이식 가능한 공격을 개발하였다.

엔셈블 엣리웨어리어: 적대적 로버스트성 위한 다중 스케일 아그리게이션 | 최신 연구 논문 | HyperAI초신경