Grad-CAM: 그래디언트 기반 위치 추정을 통한 딥 네트워크의 시각적 설명

우리는 대규모 CNN 기반 모델들의 결정에 대한 "시각적 설명"을 생성하는 기술을 제안하여 이들 모델의 투명성을 높입니다. 우리의 접근 방식인 그래디언트 가중 클래스 활성화 매핑(Grad-CAM)은 최종 컨볼루션 계층으로 유입되는 임의의 타겟 개념의 그래디언트를 사용하여 이미지에서 중요한 영역을 강조하는 거친 위치화 맵을 생성합니다. Grad-CAM은 (1) 완전 연결 계층을 가진 CNN, (2) 구조화된 출력을 위한 CNN, (3) 다중 모달 입력 또는 강화 학습에 사용되는 CNN 등의 다양한 CNN 모델군에 적용할 수 있으며, 어떤 구조적인 변경이나 재학습 없이도 가능합니다. 우리는 Grad-CAM을 세밀한 시각화와 결합하여 고해상도 클래스 구분 시각화를 생성하고, 이를 사전 학습된 이미지 분류, 캡셔닝 및 시각적 질문 응답(VQA) 모델, ResNet 기반 아키텍처를 포함하여 적용합니다.이미지 분류 모델의 맥락에서 우리의 시각화는 (a) 이들의 실패 모드에 대한 통찰력을 제공하며, (b) 적대적 이미지에 견고하며, (c) 이전 방법보다 위치화 성능이 우수하며, (d) 기저 모델에 더 충실하며, (e) 데이터셋 편향을 식별함으로써 일반화를 도울 수 있습니다. 캡셔닝과 VQA에 대해서는 주목력 기반 모델이 아닌 경우에도 입력을 위치화할 수 있음을 보여줍니다. 우리는 Grad-CAM을 통해 중요한 뉴런들을 식별하는 방법을 설계하고 이를 뉴런 이름과 결합하여 모델 결정에 대한 텍스트 설명을 제공합니다. 마지막으로, 우리는 인간 연구를 설계하고 수행하여 Grad-CAM이 사용자가 모델 예측에 적절한 신뢰를 확립하는 데 도움이 되는지를 측정하였으며, 동일한 예측 결과를 내더라도 Grad-CAM이 미훈련 사용자들이 '강한' 모델과 '약한' 모델 사이에서 성공적으로 차별화할 수 있게 돕는다는 것을 보였습니다.우리의 코드는 https://github.com/ramprs/grad-cam/에서 확인할 수 있으며, http://gradcam.cloudcv.org에서는 데모가 제공되고 있으며, 동영상은 youtu.be/COjUB9Izk6E에서 확인할 수 있습니다.