18일 전

반사적 샘플 합성 기반 강건한 시각 질문 응답

Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang
반사적 샘플 합성 기반 강건한 시각 질문 응답
초록

최근 몇 년간 시각 질문 응답(VQA) 분야는 놀라운 진전을 이루었지만, 현재의 VQA 모델들은 학습 데이터셋 내에서 표면적인 언어적 상관관계를 학습하는 경향이 있으며, 질문-응답(QA) 분포가 다른 테스트 데이터셋에 대해서는 일반화가 어려운 문제가 존재한다. 언어적 편향을 줄이기 위해 최근 여러 연구들이 타깃 VQA 모델의 학습을 정규화하기 위해 보조적인 질문 전용 모델(question-only model)을 도입하여 VQA-CP에서 우수한 성능을 달성하고 있다. 그러나 이러한 기존 방법들은 설계의 복잡성으로 인해, 이상적인 VQA 모델이 가져야 할 두 가지 핵심 특성을 ensemble 기반 모델에 적용하기 어렵다. 첫째, 시각적 설명 가능성(visual-explainable): 모델이 결정을 내릴 때 올바른 시각적 영역에 의존해야 한다. 둘째, 질문 민감성(question-sensitive): 질문의 언어적 변형에 민감해야 한다. 이를 해결하기 위해 우리는 모델에 종속되지 않는 반사적 샘플 생성(Counterfactual Samples Synthesizing, CSS) 학습 방식을 제안한다. CSS는 이미지 내 핵심 객체나 질문 내 핵심 단어를 마스킹하고, 서로 다른 진짜 정답(ground-truth answer)을 부여함으로써 수많은 반사적 학습 샘플을 생성한다. 원본 샘플과 생성된 보완 샘플을 함께 사용하여 학습함으로써, VQA 모델은 모든 핵심 객체와 단어에 주의를 기울이도록 강제되며, 이는 시각적 설명 가능성과 질문 민감성 모두를 크게 향상시킨다. 그 결과, 모델의 성능 또한 추가로 향상된다. 광범위한 실험 결과는 CSS의 효과를 입증한다. 특히 LMH 모델을 기반으로 하여 VQA-CP v2에서 기록적인 58.95%의 성능을 달성하였으며, 기존 성능 대비 6.5%의 향상을 기록하였다.

반사적 샘플 합성 기반 강건한 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경