16日前

言語と文化を跨ぐ視覚的基盤付き推論

Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott
言語と文化を跨ぐ視覚的基盤付き推論
要約

広範な視覚・言語データセットおよび事前学習済みエンコーダの設計は、ほとんどがImageNetの概念や画像を直接採用するか、あるいはそのアイデアにインスピレーションを得ている。このベンチマークがコンピュータビジョン分野の進展に与えた貢献は、いかに評価しても過大ではないが、その出典は主に英語の語彙データベースや画像検索結果に依拠しており、北米や西欧文化に偏ったソース素材をもたらしている。このため、より多様な言語と文化を代表するImageNet風の階層構造を構築するための新たなプロトコルを提案する。特に、概念および画像の選定を自動クローリングではなく、現地の母語話者による主導に完全に委ねることを特徴とする。具体的には、言語の構文的多様性を考慮し、インドネシア語、中国語(普通話)、スワヒリ語、タミル語、トルコ語の5言語に焦点を当てる。この新しいプロトコルによって得られた概念と画像を基盤として、母語話者のアノテーターから画像ペアに関する記述を収集し、多言語・多文化的視覚・言語推論(Multicultural Reasoning over Vision and Language, MaRVL)を目的としたマルチリンガルデータセットを構築した。このタスクは、各々の地に立った記述(grounded statement)が真か偽かを判別することを目的としている。最先端モデルを用いた一連のベースラインを確立した結果、英語での教師あり学習性能に比べて、跨言語転移性能が著しく劣ることが明らかになった。これらの結果は、現在の最先端モデルが狭い領域に限定された場合にのみ高い堅牢性と精度を示す可能性を示唆するとともに、真に多言語的かつ多文化的なシステムの開発に向けて、新たな魅力ある課題を提示している。

言語と文化を跨ぐ視覚的基盤付き推論 | 最新論文 | HyperAI超神経