6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen

概要

我々は、オンラインメッセージングにおける写真共有行動に光を当てる初のヒューマン・ヒューマン対話データセット「PhotoChat」を提案する。PhotoChatは12,000件の対話から構成されており、それぞれの対話は会話中に共有されたユーザーの写真とペアになっている。このデータセットを基に、画像-テキストモデリングに関する研究を促進するための2つのタスクを提案する。1つ目は、次の会話ターンで写真を共有する意図があるかどうかを予測する「写真共有意図予測タスク」であり、2つ目は会話の文脈に基づいて最も関連性の高い写真を検索する「写真検索タスク」である。さらに、これらのタスクに対して、最先端のモデルを用いたベースラインモデルを提供し、そのベンチマーク性能を報告する。最高の写真検索モデルでは、1000件の候補中で10.4%のRecall@1を達成し、最高の写真共有意図予測モデルでは58.1%のF1スコアを記録した。これらの結果は、本データセットが現実世界の興味深いが同時に挑戦的な問題を提示していることを示している。本研究では、コミュニティにおける今後の研究を支援するために、PhotoChatを公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen

概要

我々は、オンラインメッセージングにおける写真共有行動に光を当てる初のヒューマン・ヒューマン対話データセット「PhotoChat」を提案する。PhotoChatは12,000件の対話から構成されており、それぞれの対話は会話中に共有されたユーザーの写真とペアになっている。このデータセットを基に、画像-テキストモデリングに関する研究を促進するための2つのタスクを提案する。1つ目は、次の会話ターンで写真を共有する意図があるかどうかを予測する「写真共有意図予測タスク」であり、2つ目は会話の文脈に基づいて最も関連性の高い写真を検索する「写真検索タスク」である。さらに、これらのタスクに対して、最先端のモデルを用いたベースラインモデルを提供し、そのベンチマーク性能を報告する。最高の写真検索モデルでは、1000件の候補中で10.4%のRecall@1を達成し、最高の写真共有意図予測モデルでは58.1%のF1スコアを記録した。これらの結果は、本データセットが現実世界の興味深いが同時に挑戦的な問題を提示していることを示している。本研究では、コミュニティにおける今後の研究を支援するために、PhotoChatを公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています