2ヶ月前
PaCE: Progressive および Compositional Experts を使用した統一多モーダル対話事前学習
Yunshui Li; Binyuan Hui; ZhiChao Yin; Min Yang; Fei Huang; Yongbin Li

要約
多様なモーダル情報の認識と人間との対話を実現することは、人工知能の長期的な目標です。多様なモーダル対話のための前学習は一般的に効果的なアプローチとされていますが、多様なモーダル対話データの限られた可用性により、この分野での研究はまだ少ないのが現状です。また、多様なモーダル対話にはさまざまなモーダルとタスクが含まれているため、新たな形式のタスクが予測不可能なタイミングで発生する可能性があります。したがって、設計された多様なモーダル対話モデルには、このようなシナリオに適応する十分な柔軟性が必要です。本論文では、統一的で構造化され、組み込み可能な多様なモーダル対話前学習フレームワークである\textbf{PaCE}を提案します。このフレームワークは、複数の基本的なエキスパートを組み合わせることで複数の対話関連タスクに対応し、限られた対話データと広範な非対話多様なモーダルデータを使用して前学習を行うことができます。さらに、過去の古いエキスパートが新しいエキスパートを支援する進行学習方法も提案しており、これにより能力の拡大が促進されます。実験結果は、PaCEが8つの多様なモーダル対話ベンチマークにおいて最先端の成果を達成していることを示しています。