8 个月前

多模态表征

计算机视觉

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

摘要

我们提出了一种用于视频分类和检索的零样本学习（ZSL）任务的视听多模态方法。尽管近年来零样本学习已得到广泛研究，但主要局限于视觉模态和图像。我们证明了在视频的零样本学习中，音频和视觉模态都非常重要。由于目前缺乏可用于研究该任务的数据集，我们还构建了一个包含33个类别的适当多模态数据集，其中包含156,416个视频，这些视频来自现有的大规模音频事件数据集。通过实证研究，我们展示了在使用嵌入学习方法的多模态扩展时，加入音频模态可以提高零样本分类和检索任务的性能。此外，我们提出了一种新颖的方法，利用联合学习的模态注意力网络预测“主导”模态。我们在半监督设置下学习注意力机制，因此不需要为各个模态提供额外的显式标签。我们还提供了对特定模态注意力的定性验证，该方法成功泛化到了未见过的测试类别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

摘要

我们提出了一种用于视频分类和检索的零样本学习（ZSL）任务的视听多模态方法。尽管近年来零样本学习已得到广泛研究，但主要局限于视觉模态和图像。我们证明了在视频的零样本学习中，音频和视觉模态都非常重要。由于目前缺乏可用于研究该任务的数据集，我们还构建了一个包含33个类别的适当多模态数据集，其中包含156,416个视频，这些视频来自现有的大规模音频事件数据集。通过实证研究，我们展示了在使用嵌入学习方法的多模态扩展时，加入音频模态可以提高零样本分类和检索任务的性能。此外，我们提出了一种新颖的方法，利用联合学习的模态注意力网络预测“主导”模态。我们在半监督设置下学习注意力机制，因此不需要为各个模态提供额外的显式标签。我们还提供了对特定模态注意力的定性验证，该方法成功泛化到了未见过的测试类别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供