2ヶ月前

誰がウォルド?テキストと画像を結びつける人々

Claire Yuqing Cui; Apoorv Khandelwal; Yoav Artzi; Noah Snavely; Hadar Averbuch-Elor
誰がウォルド?テキストと画像を結びつける人々
要約

私たちは、人を中心にした視覚的根拠付けのためのタスクとベンチマークデータセットを提示します。この問題は、キャプションに記載された人物と画像に映っている人物との間のリンクを確立することです。従来の視覚的根拠付けの研究は主に物体中心であるのに対し、私たちが提案する新しいタスクでは、キャプション中の人物名をマスキングすることで、そのような画像-キャプションペアで学習された手法が名前と外見の関連性を学ぶよりも、文脈的な手がかり(複数の人々間での豊かな相互作用など)に焦点を当てるよう促します。このタスクを支援するために、Wikimedia Commons から自動的に抽出した新しいデータセット「Who's Waldo」を導入します。私たちは Transformer をベースとした手法を提案しており、このタスクにおいていくつかの強力な基準モデルを上回る性能を示しています。また、当該データセットを研究コミュニティに公開し、視覚と言語双方を取り入れた文脈モデルに関する研究を推進することを目指しています。

誰がウォルド?テキストと画像を結びつける人々 | 最新論文 | HyperAI超神経