17日前

視野を広げる:地理的に多様な視覚的共通認識推論

Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang
視野を広げる:地理的に多様な視覚的共通認識推論
要約

共通認識(commonsense)とは、すべての人々が共有する知識として定義される。しかし、特定の種類の共通認識は文化や地理的場所と相関しており、その知識は局所的にのみ共有されることがある。たとえば、歴史的・宗教的要因によって影響を受ける習慣の違いにより、結婚式のシーンは地域によって大きく異なる。こうした地域的な特徴は、これまでの研究では一般的に無視されてきた。本論文では、視覚・言語モデルが文化的・地理的場所特有の共通認識を理解できるかを評価するため、地理的に多様な視覚的共通認識推論データセット(Geo-Diverse Visual Commonsense Reasoning dataset; GD-VCR)を構築した。特に、VCR(視覚と言語の標準的マルチモーダル共通認識ベンチマーク)上で学習された、最新の視覚・言語モデルであるVisualBERTおよびViLBERTを対象とし、これらのモデルがGD-VCRにおける質問にどれだけ適切に回答できるかを評価した。その結果、西洋地域とは異なり、東アジア、南アジア、アフリカなどの非西洋地域における両モデルの性能は、西洋地域における性能と比べて著しく低かった。性能の差異の原因を分析したところ、以下の2つの要因により性能ギャップが大きくなることが明らかになった:1)文化に関連する状況(例:結婚式、宗教的行事、祭りなど)に関する質問;2)低次の知覚や認識ではなく、高次の地理的多様性を要する共通認識推論が必要な質問。本研究で使用したデータセットおよびコードは、https://github.com/WadeYin9712/GD-VCR にて公開されている。