MIntRec2.0 是清华大学等提出的一个大规模多模态多方基准数据集,专门用于识别对话中的意图和检测非意图内容。相较于先前的 MIntRec,MIntRec2.0 的数据量增至 15K,涵盖 30 种意图类别,并包含约 9.3K 个意图内及 5.7K 个意图外的标注语句,涉及文本、视频和音频等多种模态。
该数据集由 1,245 个对话组成,每个对话平均 12 个语句,每个语句均配有意图标签,且每个对话至少涉及两位发言者,所有语句均标记发言者身份。此外,针对开放世界场景的需求,MIntRec2.0 引入 OOS 标签,用于识别不属于已知意图类别的语句,以增强系统的鲁棒性。该数据集旨在促进多模态意图理解相关研究,为实现更自然的人机交互并通往 AGI 之路奠定坚实基础。