8ヶ月前

マルチモーダル

データセット

マルチモーダル表現

AIインフラストラクチャ

マルチモーダル

Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li

概要

よりリアルな人間の会話プロセスをシミュレーションするためには、モデルが対話発話を生成する際に、単に先行するテキストコンテクストだけでなく、視覚的なコンテクストも考慮する必要があります。しかし、マルチモーダル対話学習の発展とともに、データセットの規模が徐々にボトルネックとなっています。本報告では、以前のバージョンであるOpenViDial 1.0と比較して大規模化されたオープンドメインのマルチモーダル対話データセットOpenViDial 2.0を公開します。OpenViDial 2.0は、異なるリソースから抽出された映画やテレビドラマからの560万件の対話ターンを含んでおり、各対話ターンは対応する視覚的なコンテクストとペアになっています。私たちはこの大規模なデータセットが、オープンドメインのマルチモーダル対話生成に関する今後の研究（例えば、対話生成のためのマルチモーダル事前学習）を促進することを期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

データセット

マルチモーダル表現

AIインフラストラクチャ

マルチモーダル

Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li

概要

よりリアルな人間の会話プロセスをシミュレーションするためには、モデルが対話発話を生成する際に、単に先行するテキストコンテクストだけでなく、視覚的なコンテクストも考慮する必要があります。しかし、マルチモーダル対話学習の発展とともに、データセットの規模が徐々にボトルネックとなっています。本報告では、以前のバージョンであるOpenViDial 1.0と比較して大規模化されたオープンドメインのマルチモーダル対話データセットOpenViDial 2.0を公開します。OpenViDial 2.0は、異なるリソースから抽出された映画やテレビドラマからの560万件の対話ターンを含んでおり、各対話ターンは対応する視覚的なコンテクストとペアになっています。私たちはこの大規模なデータセットが、オープンドメインのマルチモーダル対話生成に関する今後の研究（例えば、対話生成のためのマルチモーダル事前学習）を促進することを期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています