
초록
언어 편향은 시각질문응답(VQA)에서 핵심적인 문제로, 모델들이 이미지 정보를 고려하지 않고 데이터셋의 편향을 활용하여 최종 결정을 내리는 경향이 있다. 그 결과, 분포 외 데이터에서 성능 저하와 부적절한 시각적 설명이라는 문제가 발생한다. 기존의 강건한 VQA 방법에 대한 실험적 분석을 바탕으로, 본 연구는 VQA에서 발생하는 언어 편향이 분포 편향(distribution bias)과 단순화 편향(shortcut bias)이라는 두 가지 측면에서 비롯됨을 강조한다. 또한, 다수의 편향된 모델을 결합하여 편향 없는 기반 모델을 학습하는 새로운 탈편향 프레임워크인 탐욕적 그래디언트 앙상블(Greedy Gradient Ensemble, GGE)을 제안한다. GGE는 탐욕 전략을 통해 편향된 모델들이 우선적으로 편향된 데이터 분포에 과적합되도록 유도함으로써, 편향된 모델들이 해결하기 어려운 예시에 기반 모델이 더 많은 주의를 기울이도록 한다. 실험 결과, 본 방법은 시각 정보를 보다 효과적으로 활용하며, 추가적인 애너테이션 없이도 VQA-CP 데이터셋에서 최신 기술 수준의 성능을 달성함을 입증하였다.