2 个月前

长期循环卷积网络在视觉识别与描述中的应用

Jeff Donahue; Lisa Anne Hendricks; Marcus Rohrbach; Subhashini Venugopalan; Sergio Guadarrama; Kate Saenko; Trevor Darrell
长期循环卷积网络在视觉识别与描述中的应用
摘要

基于深度卷积网络的模型在近期的图像解释任务中占据了主导地位;我们研究了是否具有递归性或“时间深度”的模型对于涉及序列的任务(包括视觉和其他类型的任务)同样有效。我们开发了一种适用于大规模视觉学习的新型递归卷积架构,该架构可以端到端训练,并在基准视频识别任务、图像描述和检索问题以及视频叙述挑战中展示了这些模型的价值。与当前假设固定时空感受野或简单时间平均进行序列处理的模型不同,递归卷积模型在空间和时间“层”上都是“双重深度”的,即它们可以在空间和时间上进行组合。当目标概念复杂和/或训练数据有限时,这类模型可能具有优势。通过在网络状态更新中引入非线性,可以学习长期依赖关系。长期递归神经网络(RNN)模型的优势在于可以直接将变长输入(例如,视频帧)映射到变长输出(例如,自然语言文本),并且能够建模复杂的时序动态;然而,它们仍然可以通过反向传播进行优化。我们的递归长期模型直接连接到现代视觉卷积神经网络(ConvNet)模型,并可以联合训练以同时学习时序动态和卷积感知表示。实验结果表明,这类模型在识别或生成任务中相对于现有最先进模型具有明显优势,后者通常分别定义和/或优化。