8ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch

概要

目標を達成するために必要な手順の系列を理解することは、人工知能システムが人間の活動について推論するのに役立ちます。過去の自然言語処理（NLP）に関する研究では、テキストにおける目標-手順推論タスクが検討されてきました。本稿では、その視覚的な類似物を導入します。私たちは、Visual Goal-Step Inference (VGSI) タスクを提案します。このタスクでは、モデルにテキストで表現された目標が与えられ、4つの画像の中でその目標に向かう合理的な手順を表している画像を選択する必要があります。新たにwikiHowから収集した772,277枚の画像データセットを使用し、これらの画像は人間の行動を表しています。我々のタスクが最先端のマルチモーダルモデルにとって挑戦的であることを示しました。さらに、我々のデータから学習したマルチモーダル表現は、HowTo100Mなどの他のデータセットへの転移学習において効果的に利用でき、VGSIの精度を15 - 20%向上させることができます。我々のタスクは、手続き的なイベントに対するマルチモーダル推論を促進するものとなるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch

概要

目標を達成するために必要な手順の系列を理解することは、人工知能システムが人間の活動について推論するのに役立ちます。過去の自然言語処理（NLP）に関する研究では、テキストにおける目標-手順推論タスクが検討されてきました。本稿では、その視覚的な類似物を導入します。私たちは、Visual Goal-Step Inference (VGSI) タスクを提案します。このタスクでは、モデルにテキストで表現された目標が与えられ、4つの画像の中でその目標に向かう合理的な手順を表している画像を選択する必要があります。新たにwikiHowから収集した772,277枚の画像データセットを使用し、これらの画像は人間の行動を表しています。我々のタスクが最先端のマルチモーダルモデルにとって挑戦的であることを示しました。さらに、我々のデータから学習したマルチモーダル表現は、HowTo100Mなどの他のデータセットへの転移学習において効果的に利用でき、VGSIの精度を15 - 20%向上させることができます。我々のタスクは、手続き的なイベントに対するマルチモーダル推論を促進するものとなるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています