8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

概要

私たちは、人を中心にした視覚的根拠付けのためのタスクとベンチマークデータセットを提示します。この問題は、キャプションに記載された人物と画像に映っている人物との間のリンクを確立することです。従来の視覚的根拠付けの研究は主に物体中心であるのに対し、私たちが提案する新しいタスクでは、キャプション中の人物名をマスキングすることで、そのような画像-キャプションペアで学習された手法が名前と外見の関連性を学ぶよりも、文脈的な手がかり（複数の人々間での豊かな相互作用など）に焦点を当てるよう促します。このタスクを支援するために、Wikimedia Commons から自動的に抽出した新しいデータセット「Who's Waldo」を導入します。私たちは Transformer をベースとした手法を提案しており、このタスクにおいていくつかの強力な基準モデルを上回る性能を示しています。また、当該データセットを研究コミュニティに公開し、視覚と言語双方を取り入れた文脈モデルに関する研究を推進することを目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

概要

私たちは、人を中心にした視覚的根拠付けのためのタスクとベンチマークデータセットを提示します。この問題は、キャプションに記載された人物と画像に映っている人物との間のリンクを確立することです。従来の視覚的根拠付けの研究は主に物体中心であるのに対し、私たちが提案する新しいタスクでは、キャプション中の人物名をマスキングすることで、そのような画像-キャプションペアで学習された手法が名前と外見の関連性を学ぶよりも、文脈的な手がかり（複数の人々間での豊かな相互作用など）に焦点を当てるよう促します。このタスクを支援するために、Wikimedia Commons から自動的に抽出した新しいデータセット「Who's Waldo」を導入します。私たちは Transformer をベースとした手法を提案しており、このタスクにおいていくつかの強力な基準モデルを上回る性能を示しています。また、当該データセットを研究コミュニティに公開し、視覚と言語双方を取り入れた文脈モデルに関する研究を推進することを目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

誰がウォルド？テキストと画像を結びつける人々 | 記事 | HyperAI超神経