17 天前

深度多模态神经架构搜索

Zhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian
深度多模态神经架构搜索
摘要

在深度多模态学习中,设计高效的神经网络具有根本性意义。现有大多数方法通常聚焦于单一任务,采用人工方式设计神经网络架构,这类方法具有高度的任务特异性,难以泛化到不同任务。本文提出一种通用的深度多模态神经架构搜索(MMNAS)框架,适用于多种多模态学习任务。给定多模态输入后,我们首先定义一组基础操作,随后构建一个基于编码器-解码器结构的统一主干网络,其中每个编码器或解码器模块对应于从预定义操作池中搜索得到的一项操作。在此统一主干网络之上,我们接入针对具体任务的特定头结构,以应对不同的多模态学习任务。通过采用基于梯度的神经架构搜索算法,能够高效地学习适用于各类任务的最优网络结构。大量消融实验、全面的分析以及对比实验结果表明,所提出的MMNASNet在三个典型的多模态学习任务(覆盖五个数据集)上显著优于现有的最先进方法,包括视觉问答、图像-文本匹配和视觉定位任务。