HyperAIHyperAI

Command Palette

Search for a command to run...

アニメーション画像は少なくとも千の言葉を語る:マルチモーダル対話におけるGIFベースの返信選択

Xingyao Wang David Jurgens

概要

オンライン会話はテキストだけではなく、画像ベースの応答も含まれています。特に、ミームやアニメーションGIFなどの文化的に認識され、しばしばユーモラスな応答が会話に使用されることが増加しています。しかし、自然言語処理(NLP)がマルチモーダルモデルへと広がっている一方で、対話システムは主にテキスト応答の生成に焦点を当てています。本稿では、156万件のテキスト-GIF会話ターンからなる新しいデータセットを紹介し、GIFベースの応答を選択するための新しいマルチモーダル対話モデル「ペペ・ザ・キング・プロウン」を提案します。我々のモデルが関連性があり高品質なGIF応答を生成することを示すとともに、複数のモデルが実際のユーザーに対する応答を行う大規模な無作為化比較試験において、コミュニティからの評価が著しく高いことを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています