HyperAI超神经
Back to Headlines

新AI模型自主学习视听同步,无需人类标签指导

7 days ago

麻省理工学院(MIT)和其他研究机构的科学家们开发了一种新的方法,使人工智能模型能够在没有人类干预的情况下更好地学习视觉和声音之间的联系。这项技术有望在新闻业、电影制作等领域发挥重要作用,通过自动视频和音频检索帮助处理多媒体内容。从长远来看,它还能提高机器人在现实环境中理解周围世界的能力,因为听觉和视觉信息往往密切相关。 研究人员几年前开发了一种名为CAV-MAE的机器学习模型,该模型能够在没有人工标注的情况下同时处理音频和视频数据。在这种新方法中,他们通过一些训练调整和技术改进,增强了模型对特定视频帧与对应声音之间更细致的关系的理解能力。具体来说,他们在新的模型CAV-MAE Sync中将音频拆分成更小的时间窗口,使得模型能够更精确地将每个视频帧与其对应的声音关联起来,而不是将整段音频和视频作为一个单位处理。这种更细粒度的对齐有助于提高模型在后期执行任务时的性能。 此外,研究人员还对模型的架构进行了优化,以便更好地平衡两个主要的学习目标:对比目标和重建目标。对比目标旨在学习将相似的音频和视频数据关联在一起,而重建目标则是根据用户查询恢复特定的音频和视频数据。为实现这一目标,他们引入了两种新的数据表示形式——“全局标记”和“注册标记”。“全局标记”帮助模型完成对比任务,“注册标记”则让模型更专注于重要细节,从而提升重建效果。这些改进为模型提供了更多的灵活性,使其能够独立地完成对比和重建任务,从而整体提高了性能。 通过这些相对简单的改进,CAV-MAE Sync在基于音频查询的视频检索任务和视听场景分类任务中的表现都更为准确。例如,它可以自动并准确地将门关上的声音与视频中门关闭的画面匹配。“我们希望构建像人类一样处理世界的AI系统,能够同时接收并处理音视频信息。未来如果能将这种音视频技术集成到我们的日常工具中,如大语言模型,将开启许多新的应用场景,”论文合著者、MIT研究生Andrew Rouditchenko表示。 该研究团队未来计划将生成更好的数据表示的新模型整合到CAV-MAE Sync中,进一步提升其性能。他们还希望扩展系统的功能,使其能够处理文本数据,这将是朝着创建音视频大型语言模型迈出的重要一步。

Related Links