17日前

PhotoChat:画像共有行動を伴う人間同士の対話データセットによる画像・テキスト統合モデリング

Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen
PhotoChat:画像共有行動を伴う人間同士の対話データセットによる画像・テキスト統合モデリング
要約

我々は、オンラインメッセージングにおける写真共有行動に光を当てる初のヒューマン・ヒューマン対話データセット「PhotoChat」を提案する。PhotoChatは12,000件の対話から構成されており、それぞれの対話は会話中に共有されたユーザーの写真とペアになっている。このデータセットを基に、画像-テキストモデリングに関する研究を促進するための2つのタスクを提案する。1つ目は、次の会話ターンで写真を共有する意図があるかどうかを予測する「写真共有意図予測タスク」であり、2つ目は会話の文脈に基づいて最も関連性の高い写真を検索する「写真検索タスク」である。さらに、これらのタスクに対して、最先端のモデルを用いたベースラインモデルを提供し、そのベンチマーク性能を報告する。最高の写真検索モデルでは、1000件の候補中で10.4%のRecall@1を達成し、最高の写真共有意図予測モデルでは58.1%のF1スコアを記録した。これらの結果は、本データセットが現実世界の興味深いが同時に挑戦的な問題を提示していることを示している。本研究では、コミュニティにおける今後の研究を支援するために、PhotoChatを公開する。