2달 전
RUBi: 시각적 질문 응답에서 단일 모드 편향 줄이기
Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh

초록
시각적 질문 응답(VQA)은 이미지에 대한 질문을 답변하는 작업입니다. 일부 VQA 모델은 이미지 정보를 사용하지 않고도 올바른 답변을 제공하기 위해 단일 모드 편향을 활용하는 경우가 많습니다. 그 결과, 이들 모델은 학습 세트 분포 외의 데이터에서 평가될 때 성능이 크게 저하됩니다. 이러한 중요한 문제는 실제 환경에서 이들을 적합하지 않게 만듭니다.우리는 RUBi라는 새로운 학습 전략을 제안하여 모든 VQA 모델에서 편향을 줄입니다. 이 전략은 이미지를 보지 않아도 올바르게 분류할 수 있는 가장 편향된 예제들의 중요성을 감소시키며, VQA 모델이 질문과 답변 사이의 통계적 규칙성에 의존하지 않고 두 입력 모드를 사용하도록 암묵적으로 강제합니다. 우리는 질문만으로 구성된 모델을 활용하여 이러한 불필요한 규칙성이 사용되는 시점을 식별함으로써 언어 편향을 포착합니다. 이 모델은 기본 VQA 모델이 이러한 규칙성을 학습하지 못하도록 예측에 영향을 미치며, 이로 인해 편향을 보완하기 위해 손실(loss)을 동적으로 조정하게 됩니다. 우리는 VQA-CP v2 데이터셋에서 현재 최신 연구 결과를 초월함으로써 우리의 기여를 검증하였습니다. 이 데이터셋은 훈련 중에 본 적 없는 다른 질문 편향이 테스트 시간에 노출되었을 때 VQA 모델의 견고성을 평가하기 위해 특별히 설계되었습니다.우리의 코드는 다음과 같이 이용 가능합니다: github.com/cdancette/rubi.bootstrap.pytorch