8 个月前

计算机视觉

计算机视觉

Humam Alwassel Silvio Giancola Bernard Ghanem

摘要

由于未剪辑视频占用较大的内存空间，当前最先进的视频定位方法通常基于预先计算的视频片段特征进行操作。这些特征通常是从针对已剪辑动作分类任务训练的视频编码器中提取的，因此不一定适用于时间定位。在本研究中，我们提出了一种新颖的监督预训练范式，用于片段特征的训练，该范式不仅能够对活动进行分类，还考虑了背景片段和全局视频信息以提高时间敏感度。大量实验表明，使用我们提出的新型预训练策略训练的特征，在三个任务上显著提升了近期最先进方法的性能：时间动作定位、动作提案生成和密集视频字幕生成。我们还展示了我们的预训练方法在三种编码器架构和两个预训练数据集上的有效性。我们认为，视频特征编码是定位算法的重要组成部分，提取时间敏感特征对于构建更精确的模型至关重要。项目网站上提供了代码和预训练模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Humam Alwassel Silvio Giancola Bernard Ghanem

摘要

由于未剪辑视频占用较大的内存空间，当前最先进的视频定位方法通常基于预先计算的视频片段特征进行操作。这些特征通常是从针对已剪辑动作分类任务训练的视频编码器中提取的，因此不一定适用于时间定位。在本研究中，我们提出了一种新颖的监督预训练范式，用于片段特征的训练，该范式不仅能够对活动进行分类，还考虑了背景片段和全局视频信息以提高时间敏感度。大量实验表明，使用我们提出的新型预训练策略训练的特征，在三个任务上显著提升了近期最先进方法的性能：时间动作定位、动作提案生成和密集视频字幕生成。我们还展示了我们的预训练方法在三种编码器架构和两个预训练数据集上的有效性。我们认为，视频特征编码是定位算法的重要组成部分，提取时间敏感特征对于构建更精确的模型至关重要。项目网站上提供了代码和预训练模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供