17일 전

질문 기반 편향을 넘어서: 시각적 질의 응답에서의 다중모달 단순화 학습 평가

Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord
질문 기반 편향을 넘어서: 시각적 질의 응답에서의 다중모달 단순화 학습 평가
초록

시각 질문 응답(VQA)에 대한 평가 방법론을 제안하여 단기적 학습(shortcut learning) 사례를 더 효과적으로 진단하고자 한다. 이러한 사례는 모델이 정답을 도출하기 위해 허위의 통계적 규칙을 활용하지만, 실제로 원하는 행동을 수행하지는 않는 상황을 의미한다. 모델을 실제 세계에 배포하기 전에 데이터셋 내 잠재적인 단기적 학습 경로를 식별하고 그 사용 여부를 평가하는 것이 절실히 필요하다. 기존 VQA 연구 공동체는 질문 기반 단기적 학습에만 집중해 왔다. 예를 들어, 질문이 “하늘의 색깔은 무엇인가요?”일 경우, 모델이 시각적 증거에 거의 의존하지 않고 질문 조건부 학습 사전 지식에만 의존하여 “파란색”이라는 답을 내는 것이다. 본 연구는 이를 한 단계 더 나아가 질문과 이미지 모두를 포함하는 다모달 단기적 학습(shortcuts)을 고려한다. 먼저, 대표적인 VQA v2 학습 데이터셋에서 단순한 예측 규칙(예: 단어와 시각적 요소의 동시 발생)을 탐색함으로써 잠재적인 단기적 학습 경로를 식별한다. 그 후, 이러한 규칙이 잘못된 답변을 유도하는 이미지-질문-답변 삼중항(즉, 반례, CounterExamples)의 서브셋을 기반으로 한 새로운 평가 프로토콜인 VQA-CounterExamples(VQA-CE)를 제안한다. 이 새로운 평가 방법을 기존 VQA 접근법에 대한 대규모 연구에 적용하여, 심지어 최신 기술을 사용한 모델조차도 성능이 저조함을 보여주며, 기존 편향 완화 기법이 이 맥락에서는 거의 효과가 없음을 입증한다. 본 연구 결과는 기존의 질문 기반 편향에 대한 연구가 복잡한 문제의 한 측면만 다루었다는 점을 시사한다. 본 연구의 코드는 https://github.com/cdancette/detect-shortcuts 에서 공개되어 있다.