2ヶ月前

アニメーション画像は少なくとも千の言葉を語る:マルチモーダル対話におけるGIFベースの返信選択

Xingyao Wang; David Jurgens
アニメーション画像は少なくとも千の言葉を語る:マルチモーダル対話におけるGIFベースの返信選択
要約

オンライン会話はテキストだけではなく、画像ベースの応答も含まれています。特に、ミームやアニメーションGIFなどの文化的に認識され、しばしばユーモラスな応答が会話に使用されることが増加しています。しかし、自然言語処理(NLP)がマルチモーダルモデルへと広がっている一方で、対話システムは主にテキスト応答の生成に焦点を当てています。本稿では、156万件のテキスト-GIF会話ターンからなる新しいデータセットを紹介し、GIFベースの応答を選択するための新しいマルチモーダル対話モデル「ペペ・ザ・キング・プロウン」を提案します。我々のモデルが関連性があり高品質なGIF応答を生成することを示すとともに、複数のモデルが実際のユーザーに対する応答を行う大規模な無作為化比較試験において、コミュニティからの評価が著しく高いことを示しています。

アニメーション画像は少なくとも千の言葉を語る:マルチモーダル対話におけるGIFベースの返信選択 | 最新論文 | HyperAI超神経