입력-기울기 공간 정렬을 활용한 귀속성 강건성 훈련

신뢰할 수 있는 머신러닝 분야에서 해석 가능성(Interpretability)은 최근 부상하고 있는 연구 주제이다. 머신러닝 시스템의 안전한 배포를 위해서는 예측 결과와 그에 대한 설명이 모두 신뢰할 수 있고 견고해야 한다. 최근 연구에서는 입력 데이터에 시각적으로 인지되지 않는 작은 왜곡(perturbation)을 추가하더라도 모델의 예측 결과는 그대로 유지되면서 설명 결과가 쉽게 조작될 수 있음을 밝혀냈다. 본 연구에서는 이러한 설명의 취약성을 분석하기 위해, 입력 이미지와 설명 지도(explanation map) 간의 공간적 상관관계를 기반으로 한 설명 취약성의 상한값(upper bound)을 제시한다. 이를 바탕으로, 소프트 마진 트리플릿 손실(soft-margin triplet loss)을 활용해 이 상한값을 최소화함으로써 견고한 특징을 학습하는 새로운 학습 방법론을 제안한다. 제안하는 견고한 설명 학습 방법론(robust attribution training, \textit{ART})은 SVHN, CIFAR-10, GTSRB 등 여러 표준 데이터셋에서 기존 최고 성능 대비 약 6~18%의 성능 향상을 달성하며, 새로운 최고 수준의 설명 견고성( attributional robustness)을 실현한다. 또한, CUB-200 데이터셋에서 약한 감독 하의 객체 위치 추정(weakly supervised object localization)이라는 하류 작업에서 제안한 견고한 학습 기법(\textit{ART})의 실용성을 입증하며, 해당 과제에서도 새로운 최고 성능을 달성하였다.