7일 전

변분 인과 추론 네트워크를 활용한 설명형 시각 질문 응답

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
변분 인과 추론 네트워크를 활용한 설명형 시각 질문 응답
초록

설명형 시각질의응답(Explanatory Visual Question Answering, EVQA)은 최근 제안된 다모달 추론 과제로, 시각적 질문에 대한 답변을 제공하고 동시에 추론 과정에 대한 다모달 설명을 생성하는 것을 요구한다. 기존의 시각질의응답(VQA)이 단순히 답변을 생성하는 데 초점을 맞추는 반면, EVQA는 사용자 친화적인 설명을 제공함으로써 추론 모델의 해석 가능성과 신뢰도를 향상시키는 것을 목표로 한다. 그러나 기존의 EVQA 방법들은 일반적으로 답변과 설명을 별도로 예측하기 때문에, 두 요소 간의 인과적 상관관계를 간과한다. 더불어 질문의 단어, 시각적 영역, 설명 토큰 간의 복잡한 관계를 무시하는 문제가 있다. 이러한 문제를 해결하기 위해, 예측된 답변과 설명 간의 인과적 상관관계를 구축하고, 다모달 간의 관계를 포착하여 합리적인 설명을 생성하는 변분 인과 추론 네트워크(Variational Causal Inference Network, VCIN)를 제안한다. 먼저, 시각-언어 사전학습 모델을 활용하여 시각적 특징과 질문 특징을 추출한다. 이후, 다모달 설명 게이팅 트랜스포머(Multimodal Explanation Gating Transformer)를 제안하여 다모달 간의 관계를 구축하고 합리적인 설명을 생성한다. 마지막으로, 변분 인과 추론 기법을 도입하여 목표 인과 구조를 설정하고 답변을 예측한다. 종합적인 실험을 통해 VCIN이 최신 EVQA 기법들에 비해 우수한 성능을 보임을 입증하였다.

변분 인과 추론 네트워크를 활용한 설명형 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경