17일 전

시야 확장: 지오다양성 시각적 공감각 추론

Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang
시야 확장: 지오다양성 시각적 공감각 추론
초록

일반 지식은 모든 사람에게 공유되는 지식으로 정의된다. 그러나 일부 일반 지식은 문화 및 지리적 위치와 관련이 있으며, 이는 지역적으로만 공유되는 경우가 있다. 예를 들어, 역사적 및 종교적 요인이 영향을 미친 다양한 관습으로 인해 결혼식 장면은 지역에 따라 다양하게 나타난다. 그러나 기존 연구에서는 이러한 지역적 특성을 일반적으로 무시해왔다. 본 논문에서는 문화 및 지리적 위치에 따라 달라지는 일반 지식을 이해하는 능력을 시각-언어 모델이 얼마나 잘 수행하는지 평가하기 위해, 지리적으로 다양한 시각적 일반 지식 추론 데이터셋(Geo-Diverse Visual Commonsense Reasoning, GD-VCR)을 구축한다. 특히, 이미지가 주로 서구 지역에서 수집된 표준 다모달 일반 지식 기준인 VCR 데이터셋으로 훈련된 최신의 시각-언어 모델인 VisualBERT와 ViLBERT를 대상으로 연구한다. 이후 훈련된 모델이 GD-VCR의 질문에 얼마나 잘 일반화되는지 평가한다. 그 결과, 동아시아, 남아시아, 아프리카 등 서구 지역이 아닌 지역에 대한 모델 성능이 서구 지역에 비해 상당히 낮은 것으로 나타났다. 성능 격차의 원인을 분석한 결과, 다음 두 가지 유형의 질문에서 성능 격차가 더욱 두드러진다는 점을 발견했다. 첫째, 결혼식, 종교 활동, 축제와 같은 문화 관련 상황에 관련된 질문; 둘째, 저차원적 인지 및 인식보다는 고차원의 지리적 다양성에 기반한 일반 지식 추론이 필요한 질문. 본 연구의 데이터셋과 코드는 https://github.com/WadeYin9712/GD-VCR 에서 공개된다.

시야 확장: 지오다양성 시각적 공감각 추론 | 최신 연구 논문 | HyperAI초신경