15일 전
적합한 오토인코더-블록 스위칭 방어 기법을 통합하여 적대적 공격을 방지하는 방법
Anirudh Yadav, Ashutosh Upadhyay, S.Sharanya

초록
최근 연구에 따르면, 최신 신경망(Neural Networks)이 적대적 입력 샘플(adversarial input samples)에 취약한 정도가 급격히 증가하고 있다. 신경망은 머신러닝 알고리즘을 활용하여 컴퓨터가 특정 작업을 수행하도록 학습하는 중간적 경로 또는 기법이다. 머신러닝 및 인공지능(AI) 모델은 자율주행 차량[1], 스마트 홈 기기 등 삶의 핵심적인 요소로 자리 잡았으며, 이에 따른 취약성은 심각한 문제로 대두되고 있다. 이러한 시스템은 매우 정밀하고 문맥을 고려하지 않는 특성상, 입력 데이터의 미세한 변형만으로도 오류를 유발할 수 있으며, 사용자와 관리자 모두 위험한 상황에 빠뜨릴 수 있다. 본 논문에서는 오토인코더(auto-encoder)[3]와 블록 스위칭(block-switching) 아키텍처의 결합을 활용한 방어 알고리즘을 제안한다. 오토인코더는 입력 이미지 내에 존재하는 왜곡(퍼터베이션, perturbations)을 제거하는 데 목적을 두고 있으며, 블록 스위칭 기법은 화이트박스 공격(White-box attacks)에 대한 강건성(robustness)을 향상시키는 데 사용된다. 공격은 FGSM(Fast Gradient Sign Method)[9] 모델을 기반으로 계획되며, 제안된 아키텍처가 이를 상쇄하는 역공격을 수행함으로써, 제안 알고리즘이 실현 가능하며 높은 수준의 보안성을 제공함을 입증한다.