17일 전
CLEVR-X: 자연어 설명을 위한 시각적 추론 데이터셋
Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata

초록
시각적 질의응답(VQA) 맥락에서 설명을 제공하는 것은 머신러닝 분야에서 핵심적인 문제이다. VQA에서 자연어 설명을 생성하는 과정에 대한 심층적인 통찰을 얻기 위해, 원래의 장면 그래프(scene graph)에서 유도된 구조화된 텍스트 형식의 자연어 설명을 포함하도록 확장된 대규모 CLEVR-X 데이터셋을 제안한다. CLEVR 데이터셋 내 각 이미지-질의 쌍에 대해 CLEVR-X는 다수의 구조화된 텍스트 설명을 포함하고 있으며, 이는 구성상 정확하며 주어진 질문에 답하기 위해 필요한 추론 과정과 시각적 정보를 설명한다. 제안된 데이터셋의 참조 설명이 실제로 완전하고 관련성이 있음을 확인하기 위해 사용자 연구를 수행하였다. 또한, CLEVR-X 데이터셋에서 최신 두 가지 상태의 기술적 프레임워크를 활용하여 VQA 맥락에서 자연어 설명 생성을 위한 기준 성능을 제시한다. 더불어, 다양한 질문 유형과 답변 유형에 따른 설명 생성 품질에 대한 세부적인 분석을 제공한다. 추가로, 자연어 생성(NLG) 지표의 수렴에 영향을 미치는 참조 설명의 개수 차이에 대한 영향도 분석한다. CLEVR-X 데이터셋은 \url{https://explainableml.github.io/CLEVR-X/}에서 공개적으로 제공된다.