
초록
이미지는 단순한 객체나 속성의 집합을 넘어서, 상호 연결된 객체들 사이의 관계망을 나타낸다. 장면 그래프(Scenegraph)는 이미지를 구조화된 그래픽 표현으로 나타내는 새로운 방식으로 부상하고 있다. 장면 그래프는 객체를 노드로 표현하고, 쌍별 관계를 엣지로 연결함으로써 그래프 구조를 구성한다. 장면 그래프 기반 질문 응답을 지원하기 위해, 자연어 질문을 그래프 노드 간의 다중 반복 메시지 전달로 번역하고 실행하는 언어 유도형 그래프 신경망 프레임워크인 GraphVQA를 제안한다. 본 연구에서는 GraphVQA 프레임워크의 설계 공간을 탐색하고, 다양한 설계 선택의 성능 간 상충 관계를 논의한다. GQA 데이터셋에 대한 실험 결과, GraphVQA는 기존 최고 성능 모델을 크게 능가하며, 정확도에서 88.43%에서 94.78%로 향상됨을 확인하였다.