7일 전

Few-Shot 다중모달 설명을 통한 시각 질문 응답

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
초록

eXplainable Artificial Intelligence(XAI)의 핵심 과제는 현실 세계의 데이터에 대해 추론하고 설명할 수 있는 지능형 시스템을 구축하여 신뢰할 수 있는 의사결정을 지원하는 것이다. 최근 연구들은 신뢰할 수 있는 시각질의응답(Visual Question Answering, VQA) 시스템을 구축하기 위해 사용자 친화적이고 검증 가능한 설명을 제공하는 것이 중요하다는 점을 인식하고 있다. 본 논문은 데이터와 방법론 측면에서 설명 가능한 VQA의 발전을 목표로 한다. 먼저, 소수의 훈련 샘플로 시각적 질문을 해결하기 위한 근본적인 추론 과정에 대한 다모달 설명을 생성하는 것을 목표로 하는 새로운 표준 다모달 설명(SME, Standard Multimodal Explanation) 데이터셋과 새로운 소수 샘플 다모달 설명을 위한 VQA(FS-MEVQA, Few-Shot Multimodal Explanation for VQA) 태스크를 제안한다. 본 SME 데이터셋은 질문, 이미지, 답변 및 다모달 설명으로 구성된 총 1,028,230개의 샘플을 포함하며, 기존의 MEVQA와 FS-MEVQA 연구 모두를 촉진할 수 있다. 저희가 알고 있는 바에 따르면, 이는 표준 영어 기반의 언어-시각 통합 설명과 추가적인 시각적 기반 토큰을 포함하는 최초의 대규모 데이터셋이다. 두 번째로, 다모달 오픈월드 도구를 갖춘 대규모 언어 모델(LLM) 에이전트 기반의 훈련 불필요한 다모달 설명 에이전트(MEAgent) 방법을 제안한다. MEAgent는 단지 N(=16)개의 훈련 샘플만으로도 다모달 설명을 학습하고, 오픈월드 능력을 활용하여 테스트 샘플에 대해 FS-MEVQA를 수행할 수 있다. 제안된 SME 데이터셋을 기반으로 언어 품질 지표, 시각적 탐지 지표, 시각적 기여도 지표를 활용한 종합적인 실험 결과는 본 방법이 FS-MEVQA에서 우수한 성능을 보임을 입증한다. 본 연구의 코드와 데이터는 https://github.com/LivXue/FS-MEVQA 에 공개되어 있다.

Few-Shot 다중모달 설명을 통한 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경