Explanatory Visual Question Answering
Explanatory Visual Question Answering (EVQA)는 컴퓨터 비전 분야에서 이미지 내용을 정확히 이해하고 자연어와 시각적 요소를 통합하여 추론 과정의 논리를 포괄적으로 표현하는 고급 작업입니다. 이 작업은 단순히 시각적 질문에 답하는 것뿐만 아니라 모델의 투명성과 해석성을 높이는 다중 모드 설명을 생성하는 것을 목표로 하기 때문에, 중요한 응용 가치를 가지고 있습니다.