2달 전
Grad-CAM++: 개선된 시각적 설명을 위한 깊은 합성곱 신경망
Aditya Chattopadhyay; Anirban Sarkar; Prantik Howlader; Vineeth N Balasubramanian

초록
최근 10년 동안, 컨벌루션 신경망(CNN) 모델은 복잡한 시각 문제 해결에서 높은 성공률을 보여왔습니다. 그러나 이러한 깊은 모델들은 그 내부 작동 원리에 대한 이해 부족으로 인해 "블랙박스" 방법으로 간주되어 왔습니다. 최근에는 해석 가능한 딥러닝 모델 개발에 대한 관심이 크게 증가하고 있으며, 이 논문은 이러한 방향으로의 노력의 일환입니다. 최근 제안된 Grad-CAM 방법을 기반으로, 우리는 더 나은 객체 위치 추정과 하나의 이미지 내 여러 객체 인스턴스 설명 측면에서 기존 최신 기술보다 우수한 시각적 설명을 제공할 수 있는 일반화된 방법인 Grad-CAM++를 제안합니다.제안된 방법에 대한 수학적 유도를 제공하며, 이는 특정 클래스 점수에 대한 마지막 컨벌루션 계층 피처 맵의 양의 부분 도함수들의 가중치 조합을 사용하여 해당 클래스 라벨에 대한 시각적 설명을 생성합니다. 표준 데이터셋에서 수행한 우리의 광범위한 실험 및 평가(주관적 및 객관적) 결과, Grad-CAM++는 분류, 이미지 캡션 생성, 3D 행동 인식 등 다양한 작업에서 주어진 CNN 아키텍처에 대해 유망한 인간이 해석 가능한 시각적 설명을 제공한다는 것을 확인하였습니다. 또한 지식 전달 등의 새로운 환경에서도 이를 입증하였습니다.