HyperAI超神经

モダリティとは、人が情報を受け取る特定の方法を指します。マルチメディアデータは、複数の種類の情報を送信する媒体であることが多いため (たとえば、テキスト情報、視覚情報、聴覚情報がビデオ内で同時に送信されることがよくあります)、マルチモーダル学習は徐々にマルチメディアコンテンツの分析と理解の主要な手段として発展してきました。。

マルチモーダル学習には主に次の研究方向が含まれます。

マルチモーダル表現学習: 複数のモーダルデータに含まれる意味情報を実数値ベクトルにデジタル化する方法を主に研究します。
インターモーダルマッピング: 主に、特定のモーダルデータ内の情報を別のモダリティにマッピングする方法を研究します。
アライメント:主に、異なるモード間のコンポーネントと要素間の対応関係を特定する方法を研究します。
融合: 主に、異なるモダリティ間でモデルと機能を統合する方法を研究します。
協調学習: 主に、情報が豊富なモダリティで学習した知識を、情報が少ないモダリティに転送して、各モダリティの学習が相互に支援できるようにする方法を研究します。典型的な方法には、マルチモーダルゼロショット学習、ドメイン適応などが含まれます。

参考文献

【1】AI レビューコラム — マルチモーダル学習研究の進捗状況のレビュー (Zhihu)

マルチモーダル学習マルチモーダル学習

参考文献