2달 전

자기 비판적 추론을 활용한 강건한 시각적 질문 응답

Jialin Wu; Raymond J. Mooney
자기 비판적 추론을 활용한 강건한 시각적 질문 응답
초록

시각적 질문 응답(VQA) 딥러닝 시스템은 강력한 언어 사전 정보의 영향으로 훈련 데이터에서 표면적인 통계적 상관관계를 포착하는 경향이 있으며, 질문-응답(QA) 분포가 크게 다른 테스트 데이터에 일반화하지 못합니다. 이 문제를 해결하기 위해, 정확한 답변의 시각적 설명이 다른 경쟁 답변 후보보다 가장 영향력 있는 이미지 영역과 더 잘 일치하도록 하는 자기 비판적 학습 목표를 제안합니다. 영향력 있는 영역은 인간의 시각적/문자 설명을 통해 결정되거나, 질문과 답변에서 중요한 단어만을 사용하여 자동으로 결정됩니다. 우리는 VQA-CP 데이터셋을 사용하여 VQA 일반화 작업에서 우리의 접근 방식을 평가하였으며, 문자 설명을 사용할 때 49.5%, 자동으로 주석된 영역을 사용할 때 48.5%의 새로운 최고 성능(SOTA)을 달성하였습니다.

자기 비판적 추론을 활용한 강건한 시각적 질문 응답 | 최신 연구 논문 | HyperAI초신경