17 天前

用于视频理解的自适应中间表示

Juhana Kangaspunta, AJ Piergiovanni, Rico Jonschkowski, Michael Ryoo, Anelia Angelova
用于视频理解的自适应中间表示
摘要

一种常见的视频理解策略是通过融合来自RGB帧和光流(optical flow)的特征,以整合空间信息与运动信息。在本工作中,我们提出了一种新方法,利用语义分割(semantic segmentation)作为视频理解的中间表示,并以无需额外标注数据的方式加以应用。其次,我们提出了一种通用框架,能够联合学习中间表示(包括光流与语义分割)以及最终的视频理解任务,并允许这些中间表示根据最终目标进行自适应调整。尽管网络内部使用了中间表示,但在推理阶段,仅需RGB序列作为输入,无需额外数据,从而实现仅通过单一网络即可高效完成识别任务。最后,我们提出一种通过进化算法搜索最优损失权重的方式来确定最佳学习配置。该方法获得了更具表现力的视频视觉表征,显著提升了模型性能,超越了当前最先进的技术水平。