17일 전

유도된 기호 공간을 통한 해석 가능한 시각적 추론

Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi
유도된 기호 공간을 통한 해석 가능한 시각적 추론
초록

시각적 추론에서 개념 유도 문제를 연구한다. 즉, 이미지와 연관된 질문-답변 쌍들로부터 개념과 그 계층적 관계를 식별하는 작업이며, 유도된 기호적 개념 공간 위에서 작업함으로써 해석 가능한 모델을 구현한다. 이를 위해 먼저 개체 수준의 시각적 특징을 사용하여 시각적 추론 작업을 수행할 수 있도록 새로운 프레임워크인 개체 중심 복합 주의 모델(ObjecT-Centric Compositional Attention Model, OCCAM)을 설계한다. 다음으로, 개체의 시각적 특징과 질문 단어 간의 주의 패턴에서 힌트를 얻어 개체 및 관계의 개념을 유도하는 방법을 제안한다. 마지막으로, 유도된 기호적 개념 공간에 표현된 개체에 OCCAM을 적용함으로써 더 높은 수준의 해석 가능성을 달성한다. 본 모델 설계는 먼저 개체 및 관계의 개념을 예측한 후, 예측된 개념을 다시 시각적 특징 공간으로 투영함으로써 복합 추론 모듈이 정상적으로 작동할 수 있도록 하여 간편한 적응이 가능하다. CLEVR 및 GQA 데이터셋에서의 실험 결과는 다음과 같다: 1) 인간 레이블링된 기능 프로그램 없이도 OCCAM이 새로운 최고 성능을 달성함; 2) 유도된 개념은 정확하고 충분하며, 시각적 특징 공간 또는 유도된 기호적 개념 공간에 표현된 개체에 대해 OCCAM이 유사한 성능을 보임.