8 个月前

多模态表征

统一多模态

计算机视觉

Pritam Sarkar Ali Etemad

摘要

我们介绍了CrissCross，这是一种用于学习音视频表示的自监督框架。在该框架中，我们引入了一个新颖的概念，即除了学习模态内的关系和标准的“同步”跨模态关系外，CrissCross还学习“异步”跨模态关系。通过深入研究，我们发现放松音频和视觉模态之间的时间同步性，网络可以学习到强大的泛化表示，这些表示对多种下游任务非常有用。为了预训练我们的解决方案，我们使用了3个不同规模的数据集：Kinetics-Sound、Kinetics400和AudioSet。所学的表示在多个下游任务上进行了评估，包括动作识别、声音分类和动作检索。实验结果表明，在UCF101和HMDB51的动作识别和动作检索任务上，以及ESC50和DCASE的声音分类任务上，CrissCross的表现要么优于当前最先进的自监督方法，要么与之相当。此外，在Kinetics-Sound数据集上预训练时，CrissCross的表现超过了完全监督的预训练方法。项目的代码和预训练模型可在项目网站上获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

统一多模态

计算机视觉

Pritam Sarkar Ali Etemad

摘要

我们介绍了CrissCross，这是一种用于学习音视频表示的自监督框架。在该框架中，我们引入了一个新颖的概念，即除了学习模态内的关系和标准的“同步”跨模态关系外，CrissCross还学习“异步”跨模态关系。通过深入研究，我们发现放松音频和视觉模态之间的时间同步性，网络可以学习到强大的泛化表示，这些表示对多种下游任务非常有用。为了预训练我们的解决方案，我们使用了3个不同规模的数据集：Kinetics-Sound、Kinetics400和AudioSet。所学的表示在多个下游任务上进行了评估，包括动作识别、声音分类和动作检索。实验结果表明，在UCF101和HMDB51的动作识别和动作检索任务上，以及ESC50和DCASE的声音分类任务上，CrissCross的表现要么优于当前最先进的自监督方法，要么与之相当。此外，在Kinetics-Sound数据集上预训练时，CrissCross的表现超过了完全监督的预训练方法。项目的代码和预训练模型可在项目网站上获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供