HyperAI超神経

マルチモーダル学習マルチモーダル学習

モダリティとは、人が情報を受け取る特定の方法を指します。マルチメディア データは、複数の種類の情報を送信する媒体であることが多いため (たとえば、テキスト情報、視覚情報、聴覚情報がビデオ内で同時に送信されることがよくあります)、マルチモーダル学習は徐々にマルチメディア コンテンツの分析と理解の主要な手段として発展してきました。 。

マルチモーダル学習には主に次の研究方向が含まれます。

  1. マルチモーダル表現学習: 複数のモーダルデータに含まれる意味情報を実数値ベクトルにデジタル化する方法を主に研究します。
  2. インターモーダル マッピング: 主に、特定のモーダル データ内の情報を別のモダリティにマッピングする方法を研究します。
  3. アライメント:主に、異なるモード間のコンポーネントと要素間の対応関係を特定する方法を研究します。
  4. 融合: 主に、異なるモダリティ間でモデルと機能を統合する方法を研究します。
  5. 協調学習: 主に、情報が豊富なモダリティで学習した知識を、情報が少ないモダリティに転送して、各モダリティの学習が相互に支援できるようにする方法を研究します。典型的な方法には、マルチモーダルゼロショット学習、ドメイン適応などが含まれます。

参考文献

【1】AI レビュー コラム — マルチモーダル学習研究の進捗状況のレビュー (Zhihu)