
초록
우리는 딥 네트워크의 예측을 입력 특성에 귀속시키는 문제를 연구합니다. 이 문제는 여러 다른 연구에서도 다루어진 바 있습니다. 우리는 귀속 방법이 충족해야 하는 두 가지 기본 공리를 식별하였습니다—민감성(Sensitivity)과 구현 불변성(Implementation Invariance). 대부분 알려진 귀속 방법들이 이러한 공리를 만족하지 않는다는 것을 보여주며, 이를 해당 방법들의 근본적인 약점으로 간주합니다. 우리는 이러한 공리를 지침으로 삼아 새로운 귀속 방법인 통합 그래디언트(Integrated Gradients)를 설계하였습니다. 우리의 방법은 원래 네트워크에 대한 수정이 필요하지 않으며, 매우 단순하게 구현할 수 있습니다. 표준 그래디언트 연산자에 대한 몇 번의 호출만 필요합니다. 우리는 이 방법을 이미지 모델, 텍스트 모델, 그리고 화학 모델 각각 두 개씩 적용하여, 네트워크 디버깅, 네트워크에서 규칙 추출, 사용자가 모델과 더 잘 상호작용할 수 있도록 하는 능력을 시연하였습니다.