多模态学习 Multimodal learning

模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段.

多模态学习主要包括以下几个研究方向:

  1. 多模态表示学习:主要研究如何将多个模态数据所蕴含的语义信息数值化为实值向量。
  2. 模态间映射:主要研究如何将某一特定模态数据中的信息映射至另一模态。
  3. 对齐:主要研究如何识别不同模态之间的部件、元素的对应关系。
  4. 融合:主要研究如何整合不同模态间的模型与特征。
  5. 协同学习:主要研究如何将信息富集的模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

参考来源

【1】AI 综述专栏——多模态学习研究进展综述 (知乎)