2ヶ月前

wikiHowを用いた視覚的な目標ステップ推論

Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch
wikiHowを用いた視覚的な目標ステップ推論
要約

目標を達成するために必要な手順の系列を理解することは、人工知能システムが人間の活動について推論するのに役立ちます。過去の自然言語処理(NLP)に関する研究では、テキストにおける目標-手順推論タスクが検討されてきました。本稿では、その視覚的な類似物を導入します。私たちは、Visual Goal-Step Inference (VGSI) タスクを提案します。このタスクでは、モデルにテキストで表現された目標が与えられ、4つの画像の中でその目標に向かう合理的な手順を表している画像を選択する必要があります。新たにwikiHowから収集した772,277枚の画像データセットを使用し、これらの画像は人間の行動を表しています。我々のタスクが最先端のマルチモーダルモデルにとって挑戦的であることを示しました。さらに、我々のデータから学習したマルチモーダル表現は、HowTo100Mなどの他のデータセットへの転移学習において効果的に利用でき、VGSIの精度を15 - 20%向上させることができます。我々のタスクは、手続き的なイベントに対するマルチモーダル推論を促進するものとなるでしょう。

wikiHowを用いた視覚的な目標ステップ推論 | 最新論文 | HyperAI超神経