8 个月前

卷积神经网络

计算机视觉

Michael S. Ryoo AJ Piergiovanni Mingxing Tan Anelia Angelova

摘要

学习视频表示是一项在算法和计算上都非常具有挑战性的任务。标准的视频卷积神经网络（CNN）架构通常是通过直接扩展为图像理解设计的架构来包含时间维度而构建的，使用诸如3D卷积等模块，或者通过双流设计来捕捉视频中的外观和运动信息。我们将视频CNN解释为多流卷积块的集合，这些卷积块相互连接，并提出了一种自动寻找具有更好连通性和时空交互性的神经架构的方法，以提高对视频的理解能力。该方法通过由连接权重学习引导的过度连接架构群体进化来实现。我们搜索结合了不同输入类型（即RGB和光流）在多个时间分辨率下的表示的架构，从而允许不同类型或来源的信息之间进行交互。我们的方法被称为AssembleNet，在公开的视频数据集上表现优于先前的方法，在某些情况下甚至有显著提升。我们在Charades数据集上获得了58.6%的平均精度均值（mAP），在Moments-in-Time数据集上达到了34.27%的准确率。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Michael S. Ryoo AJ Piergiovanni Mingxing Tan Anelia Angelova

摘要

学习视频表示是一项在算法和计算上都非常具有挑战性的任务。标准的视频卷积神经网络（CNN）架构通常是通过直接扩展为图像理解设计的架构来包含时间维度而构建的，使用诸如3D卷积等模块，或者通过双流设计来捕捉视频中的外观和运动信息。我们将视频CNN解释为多流卷积块的集合，这些卷积块相互连接，并提出了一种自动寻找具有更好连通性和时空交互性的神经架构的方法，以提高对视频的理解能力。该方法通过由连接权重学习引导的过度连接架构群体进化来实现。我们搜索结合了不同输入类型（即RGB和光流）在多个时间分辨率下的表示的架构，从而允许不同类型或来源的信息之间进行交互。我们的方法被称为AssembleNet，在公开的视频数据集上表现优于先前的方法，在某些情况下甚至有显著提升。我们在Charades数据集上获得了58.6%的平均精度均值（mAP），在Moments-in-Time数据集上达到了34.27%的准确率。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供