2달 전

시각적 질문 응답을 위한 충실한 다중 모달 설명

Wu, Jialin ; Mooney, Raymond J.
시각적 질문 응답을 위한 충실한 다중 모달 설명
초록

AI 시스템의 추론 과정을 설명하는 능력은 그들의 활용성과 신뢰성에 매우 중요합니다. 딥 뉴럴 네트워크는 시각적 질문 응답(VQA)과 같은 많은 어려운 문제에서 상당한 진전을 이루었습니다. 그러나 대부분의 딥 뉴럴 네트워크는 설명 능력이 제한된 불투명한 검은 상자입니다. 본 논문에서는 고성능 VQA 시스템을 개발하기 위한 새로운 접근법을 제시합니다. 이 시스템은 통합된 텍스트와 시각적 설명을 통해 중요한 추론 과정을 충실히 반영하면서 인간이 이해할 수 있는 설명 스타일을 포착할 수 있습니다. 광범위한 실험 평가를 통해 자동 평가 지표와 인간 평가 지표를 사용하여 이 접근법의 경쟁 방법들에 비해 우수함이 입증되었습니다.

시각적 질문 응답을 위한 충실한 다중 모달 설명 | 최신 연구 논문 | HyperAI초신경