2달 전

RUBi: 시각적 질문 응답에서 단일 모드 편향 줄이기

Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh
RUBi: 시각적 질문 응답에서 단일 모드 편향 줄이기
초록

시각적 질문 응답(VQA)은 이미지에 대한 질문을 답변하는 작업입니다. 일부 VQA 모델은 이미지 정보를 사용하지 않고도 올바른 답변을 제공하기 위해 단일 모드 편향을 활용하는 경우가 많습니다. 그 결과, 이들 모델은 학습 세트 분포 외의 데이터에서 평가될 때 성능이 크게 저하됩니다. 이러한 중요한 문제는 실제 환경에서 이들을 적합하지 않게 만듭니다.우리는 RUBi라는 새로운 학습 전략을 제안하여 모든 VQA 모델에서 편향을 줄입니다. 이 전략은 이미지를 보지 않아도 올바르게 분류할 수 있는 가장 편향된 예제들의 중요성을 감소시키며, VQA 모델이 질문과 답변 사이의 통계적 규칙성에 의존하지 않고 두 입력 모드를 사용하도록 암묵적으로 강제합니다. 우리는 질문만으로 구성된 모델을 활용하여 이러한 불필요한 규칙성이 사용되는 시점을 식별함으로써 언어 편향을 포착합니다. 이 모델은 기본 VQA 모델이 이러한 규칙성을 학습하지 못하도록 예측에 영향을 미치며, 이로 인해 편향을 보완하기 위해 손실(loss)을 동적으로 조정하게 됩니다. 우리는 VQA-CP v2 데이터셋에서 현재 최신 연구 결과를 초월함으로써 우리의 기여를 검증하였습니다. 이 데이터셋은 훈련 중에 본 적 없는 다른 질문 편향이 테스트 시간에 노출되었을 때 VQA 모델의 견고성을 평가하기 위해 특별히 설계되었습니다.우리의 코드는 다음과 같이 이용 가능합니다: github.com/cdancette/rubi.bootstrap.pytorch

RUBi: 시각적 질문 응답에서 단일 모드 편향 줄이기 | 최신 연구 논문 | HyperAI초신경