8 个月前

计算机视觉

计算机视觉

Deepti Ghadiyaram Matt Feiszli Du Tran Xuetong Yan Heng Wang Dhruv Mahajan

摘要

当前的全监督视频数据集仅包含数十万条视频和不到一千个领域特定标签。这阻碍了向更高级视频架构的发展。本文对使用大量网络视频（超过6500万条）进行预训练以完成动作识别任务的视频模型进行了深入研究。我们的主要实证发现是，尽管这些噪声较大的社交媒体视频和标签存在，大规模预训练仍显著提升了在三个具有挑战性的公开动作识别数据集上的现有技术水平。此外，我们探讨了构建弱监督视频动作数据集时的三个问题。首先，鉴于动作涉及与物体的互动，如何构建一个动词-物体预训练标签空间以最大程度地促进迁移学习？其次，基于帧的模型在动作识别方面表现良好；仅仅为图像特征进行预训练是否足够，还是为时空特征进行预训练对于最佳迁移学习同样重要？最后，相对于短视频而言，长视频中的动作通常定位较差；由于动作标签是在视频级别提供的，在给定固定数量或分钟数的视频预算下，如何选择最佳的视频片段以获得最佳性能？

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Deepti Ghadiyaram Matt Feiszli Du Tran Xuetong Yan Heng Wang Dhruv Mahajan

摘要

当前的全监督视频数据集仅包含数十万条视频和不到一千个领域特定标签。这阻碍了向更高级视频架构的发展。本文对使用大量网络视频（超过6500万条）进行预训练以完成动作识别任务的视频模型进行了深入研究。我们的主要实证发现是，尽管这些噪声较大的社交媒体视频和标签存在，大规模预训练仍显著提升了在三个具有挑战性的公开动作识别数据集上的现有技术水平。此外，我们探讨了构建弱监督视频动作数据集时的三个问题。首先，鉴于动作涉及与物体的互动，如何构建一个动词-物体预训练标签空间以最大程度地促进迁移学习？其次，基于帧的模型在动作识别方面表现良好；仅仅为图像特征进行预训练是否足够，还是为时空特征进行预训练对于最佳迁移学习同样重要？最后，相对于短视频而言，长视频中的动作通常定位较差；由于动作标签是在视频级别提供的，在给定固定数量或分钟数的视频预算下，如何选择最佳的视频片段以获得最佳性能？

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供