
要約
オンライン会話はテキストだけではなく、画像ベースの応答も含まれています。特に、ミームやアニメーションGIFなどの文化的に認識され、しばしばユーモラスな応答が会話に使用されることが増加しています。しかし、自然言語処理(NLP)がマルチモーダルモデルへと広がっている一方で、対話システムは主にテキスト応答の生成に焦点を当てています。本稿では、156万件のテキスト-GIF会話ターンからなる新しいデータセットを紹介し、GIFベースの応答を選択するための新しいマルチモーダル対話モデル「ペペ・ザ・キング・プロウン」を提案します。我々のモデルが関連性があり高品質なGIF応答を生成することを示すとともに、複数のモデルが実際のユーザーに対する応答を行う大規模な無作為化比較試験において、コミュニティからの評価が著しく高いことを示しています。