7 个月前

计算机视觉

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool

摘要

近年来，视频识别领域通过丰富的注释基准得到了显著的发展。然而，研究仍然主要集中在人类动作或体育识别上——专注于一个高度特定的视频理解任务，从而在描述视频整体内容方面留下了一定的差距。为填补这一空白，我们提出了一个大规模的“综合视频理解数据集”（HVU）。HVU 按照语义分类法进行层次组织，关注多标签和多任务视频理解问题，涵盖动态场景中多个语义方面的识别。HVU 总共包含约 572,000 个视频，用于训练、验证和测试集的注释数量达到 900 万条，涉及 3142 个标签。HVU 涵盖了场景、对象、动作、事件、属性和概念等多个类别的语义方面，自然地捕捉了现实世界的情景。我们在三个具有挑战性的任务上展示了 HVU 的泛化能力：1）视频分类；2）视频字幕生成；3）视频聚类任务。特别是在视频分类方面，我们引入了一种新的时空深度神经网络架构——“综合外观和时间网络”（HATNet），该架构通过融合 2D 和 3D 架构，并结合外观和时间线索的中间表示来构建。HATNet 关注多标签和多任务学习问题，并以端到端的方式进行训练。通过我们的实验，我们验证了综合表征学习是互补的，并且可以在许多实际应用中发挥关键作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool

摘要

近年来，视频识别领域通过丰富的注释基准得到了显著的发展。然而，研究仍然主要集中在人类动作或体育识别上——专注于一个高度特定的视频理解任务，从而在描述视频整体内容方面留下了一定的差距。为填补这一空白，我们提出了一个大规模的“综合视频理解数据集”（HVU）。HVU 按照语义分类法进行层次组织，关注多标签和多任务视频理解问题，涵盖动态场景中多个语义方面的识别。HVU 总共包含约 572,000 个视频，用于训练、验证和测试集的注释数量达到 900 万条，涉及 3142 个标签。HVU 涵盖了场景、对象、动作、事件、属性和概念等多个类别的语义方面，自然地捕捉了现实世界的情景。我们在三个具有挑战性的任务上展示了 HVU 的泛化能力：1）视频分类；2）视频字幕生成；3）视频聚类任务。特别是在视频分类方面，我们引入了一种新的时空深度神经网络架构——“综合外观和时间网络”（HATNet），该架构通过融合 2D 和 3D 架构，并结合外观和时间线索的中间表示来构建。HATNet 关注多标签和多任务学习问题，并以端到端的方式进行训练。通过我们的实验，我们验证了综合表征学习是互补的，并且可以在许多实际应用中发挥关键作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供