
要約
学習ベースの手法に関する多くの研究は、特定のタスク向けのネットワークの設計と訓練に焦点を当てています。しかし、異なるモダリティ間で多くの学習ベースのタスクが共通点を持ち、共同フレームワークで対処できる可能性があります。本稿では、統一されたアーキテクチャを使用して複数のモダリティにおける複数のタスクを学習する方向性について提案します。提案するネットワークは、タスク固有のエンコーダー、中央部に共通の中間層(トランク)、そしてタスク固有の予測ヘッドから構成されています。まず、自己監督マスキング訓練により事前学習を行い、その後各タスクに対して順次訓練を行います。我々は視覚、音響、テキスト、3Dなどの主要なすべてのモダリティでネットワークを訓練し、22つの多様で挑戦的な公開ベンチマークでの結果を報告します。実験的に示したところによると、モダリティ間での共同訓練を使用することで有意義な情報共有が行われ、これによりほとんどのベンチマークにおいて最先端の結果を達成できました。また、訓練済みネットワークがクロスモーダルなタスクや未見データセット・タスクにも汎化することを示しています。注:文中的专业术语如“自我监督掩码训练”(self-supervised masked training)和“中间层”(trunk)已根据日语科技文献中的通用译法进行了翻译,以保持专业性和准确性。