基于流式第一人称视频的主动助手对话生成

Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon

发布日期: 6/10/2025

摘要

近年来，对话式人工智能取得了显著进展，但开发用于感知任务指导的实时系统仍然面临挑战。这些系统必须基于流式视觉输入提供交互式、主动式的辅助，然而其开发受到数据收集和系统评估过程高昂成本和劳动密集型的限制。为了解决这些问题，我们提出了一种全面的框架，包含三项关键贡献。首先，我们介绍了一种新的数据整理管道，该管道从注释的第一人称视频中合成对话，生成了涵盖多个领域的大型合成对话数据集\dataset（数据集名称）。其次，我们开发了一系列自动评估指标，并通过广泛的用户研究进行了验证。最后，我们提出了一种端到端模型，该模型能够处理流式视频输入以生成上下文适当的响应，并引入了处理数据不平衡和长时间视频的新技术。这项工作为开发能够实时、主动地引导用户完成各种任务的人工智能助手奠定了基础。项目页面：此 https URL

查看论文详情