Ref-AVS 数据集由来自中国人民大学、北京邮电大学和上海人工智能实验室的研究人员于 2024 年发布的,相关论文成果为「Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes」,已被 ECCV2024 接受。
Ref-AVS 数据集是一个用于音频-视觉场景中的对象分割任务的基准,它提供了像素级注释,旨在促进多模态机器学习模型的发展,特别是在涉及音频和视觉信息融合的复杂任务中。
研究团队在 48 个类别中选择了多个可听对象,具体为:20 种乐器,8 种动物,15 种机器,5 种人类。注释是使用团队定制的 GSAI 标签系统收集的。
在视频采集过程中,研究团队采用了文献 [3,47] 中介绍的技术,以确保音频和视频片段与预期的语义对齐。所有的视频都来源于 YouTube 的知识共享许可协议,并且每个视频都被修剪成 10 秒钟的长度。在整个手工收集过程中,有意避免了将视频分为几类:1) 具有大量相同语义数量的视频;2) 具有大量编辑和摄像机切换拥有属性的视频;3) 含有合成人工制品的非真实视频。
做种 1
下载中 0
已完成 22
总下载 38