2달 전

장면 그래프를 통한 설명 가능하고 명시적인 시각적 추론

Jiaxin Shi; Hanwang Zhang; Juanzi Li
장면 그래프를 통한 설명 가능하고 명시적인 시각적 추론
초록

우리는 복잡한 시각적 추론 과제에서 널리 사용되는 블랙박스 신경망 구조를 제안된 설명 가능한(eXplainable) 및 명시적인(eXplicit) 신경 모듈(XNMs, eXplainable and eXplicit Neural Modules)로 분해하는 것을 목표로 합니다. XNMs는 기존의 신경 모듈 네트워크를 발전시켜, 객체를 노드로, 쌍별 관계를 엣지로 하는 장면 그래프(scene graphs)를 사용하여 구조화된 지식으로 설명 가능하고 명시적인 추론을 수행합니다. XNMs는 기계가 무엇을 '보는' 것에 상관없이 어떻게 '생각하는'지를 가르치는 데 더 많은 주의를 기울일 수 있게 해줍니다. 논문에서 보여드리겠지만, 장면 그래프를 유도 편향(inductive bias)으로 사용함으로써 1) XNMs는 간결하고 유연하게 설계할 수 있으며, 즉 XNMs는 단 4개의 메타 타입(meta-types)만으로 구성되어 있어 매개변수의 수를 10배에서 100배까지 크게 줄일 수 있고, 2) 그래프 주목력(graph attentions) 측면에서 추론 흐름(reasoning-flow)을 명시적으로 추적할 수 있습니다. XNMs는 매우 일반적이어서 다양한 품질의 장면 그래프 구현을 지원합니다. 예를 들어, 그래프가 완벽하게 감지될 때 XNMs는 CLEVR와 CLEVR CoGenT에서 각각 100% 정확도를 달성하여 시각적 추론에 대한 경험적 성능 상한선을 설정합니다. 반면에 실제 이미지에서 노이즈가 있는 상태로 그래프가 감지될 때에도 XNMs는 여전히 견고하여 VQAv2.0에서 경쟁력 있는 67.5% 정확도를 달성하며, 그래프 구조 없이 인기 있는 객체 집합(bag-of-objects) 주목력 모델들을 능가합니다.

장면 그래프를 통한 설명 가능하고 명시적인 시각적 추론 | 최신 연구 논문 | HyperAI초신경