HyperAI

8 个月前

微软近日推出了一款名为 Deep Video Discovery (DVD) 的新型智能体，旨在通过先进的大型语言模型（LLM）技术，提高长视频的内容挖掘和问答能力。DVD 将长视频分割成多个较短的片段，视每个片段为一个独立的“环境”。在此基础上，利用 LLM 的高级推理功能，智能体能够自主思考问题，制定策略，并选择合适的工具及其参数，逐步从每个环境中提取所需信息，最终形成对问题的精准回答。借助最新的推理模型 OpenAI GPT-4，DVD 在极具挑战性的 LVBench 数据集上实现了 74.2% 的准确率，这一成绩远远超过了先前的方法。LVBench 是一个专门用于评估视频内容理解能力的数据集，DVD 能够取得如此显著的成绩，反映出其在视频内容检索和理解方面的强大优势。微软计划将这项研究成果以 MCP Server 的形式开源，为更广泛的研究人员和开发者提供工具和技术支持，推动视频处理和理解领域的进一步发展。开源的形式不仅能促进技术创新，还能激发更多的应用场景和解决方案，为用户提供更加丰富和便捷的内容体验。对于视频制作和消费领域来说，DVD 的推出意味着一种新的、更智能化的方式来管理和解析视频内容，这不仅有助于优化用户的视频搜索体验，还将为视频内容创作者提供更多有价值的信息反馈。微软在深度学习和自然语言处理领域的不断突破，显示了其在人工智能技术应用上的领先地位。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

微软推出Deep Video Discovery智能体，大幅提升长视频问答准确率

相关链接

Command Palette

微软推出Deep Video Discovery智能体，大幅提升长视频问答准确率

相关链接

Command Palette

微软推出Deep Video Discovery智能体，大幅提升长视频问答准确率

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟