HyperAI超神经

AmbiK:厨房环境中的模糊任务数据集

Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
发布日期: 6/5/2025
AmbiK:厨房环境中的模糊任务数据集
摘要

作为具身代理的一部分,大型语言模型(LLMs)通常用于根据用户的自然语言指令进行行为规划。然而,在现实环境中处理模糊指令仍然是大型语言模型面临的一个挑战。尽管已经提出了多种任务模糊检测方法,但由于这些方法在不同的数据集上进行测试且缺乏通用基准,因此很难对它们进行比较。为此,我们提出了一种名为 AmbiK(厨房环境中的模糊任务)的完全文本型数据集,该数据集包含针对厨房环境中机器人执行的模糊指令。AmbiK 是在大型语言模型的辅助下收集并经过人工验证的。它包括 1000 对模糊任务及其明确的任务对应项,按模糊类型(人类偏好、常识知识、安全)分类,并附有环境描述、澄清问题及答案、用户意图和任务计划,共计 2000 个任务。我们希望 AmbiK 能够帮助研究人员对模糊检测方法进行统一的比较。AmbiK 数据集可在 https://github.com/cog-model/AmbiK-dataset 获取。