2달 전
시각적 상식이事前训练的单模态和多模态模型中的应用 注:这里“事前训练的”是“预训练”的直译,但韩文中更常见的表达方式是“事前학습된”。因此,更合适的翻译应该是: 시각적 상식이 사전학습된 단일모달 및 다중모달 모델에서의 응용
Chenyu Zhang; Benjamin Van Durme; Zhuowan Li; Elias Stengel-Eskin

초록
우리가 물체에 대해 가지고 있는 상식적 지식은 그들의 일반적인 시각적 속성을 포함합니다. 예를 들어, 바나나는 보통 노란색이나 초록색이며, 보라색이 아닙니다. 텍스트와 이미지 코퍼스는 보고 편향의 영향을 받아 이러한 세계 지식을 다양한 정도로 충실하게 표현합니다. 본 논문에서는 단일 모달(언어만) 및 다중 모달(이미지와 언어) 모델이 얼마나 넓은 범위의 시각적으로 중요한 속성을 포착하는지를 조사하였습니다. 이를 위해 5000개 이상의 주제에 대한 5가지 속성 유형(색상, 형태, 재질, 크기, 그리고 시각적 동시 발생)을 포함하는 Visual Commonsense Tests (ViComTe) 데이터셋을 생성하였습니다. 우리는 이 데이터셋을 검증하기 위해, 우리의 기반 색상 데이터가 Paik 등 (2021)이 제공한 군중 소싱 색상 판단과 비교하여 훨씬 더 잘 상관관계를 가지는 것을 보여주었습니다. 그런 다음, 이 데이터셋을 사용하여 사전 학습된 단일 모달 모델과 다중 모달 모델을 평가하였습니다. 결과는 다중 모달 모델이 속성 분포를 더 잘 재구성하지만 여전히 보고 편향의 영향을 받음을 나타내었습니다. 또한, 모델의 크기를 늘리는 것이 성능 향상에 도움이 되지 않는다는 점은 시각적 상식의 핵심이 데이터에 있음을 시사합니다.