17일 전
작은 것이 더 크다: CLIP 특징에 대한 선형 레이어가 강력한 VizWiz 모델로 활용됨
Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald

초록
다중 모달리티 작업, 예를 들어 시각적 질의 응답(VQA)을 위한 기존 아키텍처는 높은 복잡성으로 인해 학습이 어렵고 높은 계산 자원을 요구하는 문제가 있다. 이러한 문제를 해결하기 위해, 특징 추출기의 미세 조정(fine-tuning)이 필요 없는 CLIP 기반 아키텍처를 제안한다. 이미지 및 텍스트 인코더의 특징을 연결한 후 단순한 선형 분류기를 사용한다. 학습 과정에서는 답변 유형에 대해 작용하는 보조 손실(auxiliary loss)를 추가하며, 이로 생성된 분류 결과를 답변 클래스 선택 시 주의(attention) 게이트로 활용한다. VizWiz 2022 시각적 질의 응답 챌린지에서 Task 1: 시각적 질의에 대한 답변 예측에서는 60.15%의 정확도를, Task 2: 시각적 질의의 응답 가능성 예측에서는 AP 점수 83.78%를 달성하였다.