11 天前

OmniVec2 - 一种基于Transformer的大规模多模态多任务学习新网络

{Gaurav Sharma, Siddharth Srivastava}
OmniVec2 - 一种基于Transformer的大规模多模态多任务学习新网络
摘要

我们提出了一种新颖的多模态多任务网络及其配套的训练算法。该方法能够处理约12种不同模态的数据,包括图像、视频、音频、文本、深度图、点云、时间序列、表格数据、图结构数据、X射线图像、红外图像、惯性测量单元(IMU)数据以及高光谱数据。所提出的方法采用模态专用的分词器(tokenizers)、共享的Transformer架构以及跨模态注意力机制,将来自不同模态的数据映射到统一的嵌入空间中。通过为各模态中的不同任务配置模态特定的任务头(task heads),该方法有效应对多模态与多任务的学习场景。我们进一步提出一种创新的预训练策略——迭代式模态切换(iterative modality switching),用于网络初始化,并设计了一种训练算法,在所有模态的完全联合训练与每次仅训练模态对之间进行权衡。我们在来自12种模态的25个数据集上进行了全面评估,结果表明该方法在多个任务上均达到当前最优性能,充分验证了所提出网络架构、预训练策略及自适应多任务训练范式的有效性。

OmniVec2 - 一种基于Transformer的大规模多模态多任务学习新网络 | 最新论文 | HyperAI超神经