HyperAI超神経

AmbiK: キッチン環境における曖昧なタスクのデータセット

Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
公開日: 6/5/2025
AmbiK: キッチン環境における曖昧なタスクのデータセット
要約

体現エージェントの一環として、大規模言語モデル(LLMs)は通常、ユーザーからの自然言語の指示に基づいて行動計画を行うために使用されます。しかし、現実世界の環境において曖昧な指示を処理することは、LLMsにとって依然として課題となっています。タスクの曖昧性検出に関する様々な手法が提案されていますが、異なるデータセットでテストされているため比較が困難であり、普遍的なベンチマークが存在しません。このため、私たちは「AmbiK(キッチン環境における曖昧なタスク)」という完全にテキストベースのデータセットを提案します。このデータセットはロボットに対する厨房環境での曖昧な指示を集めたもので、大規模言語モデル(LLMs)の支援を受けながら収集され、人間によって検証されています。AmbiKには1000組の曖昧なタスクとその明確化された対応タスクが含まれており、曖昧性の種類(人間の好み、常識知識、安全性)ごとに分類されています。また、環境描写、明確化するための質問と回答、ユーザーアイテンション(意図)、およびタスプラン(計画)も提供されており、合計2000件のタスクから構成されています。私たちはAmbiKが研究者たちに曖昧性検出手法の一元的な比較を可能にするものであることを期待しています。AmbiKは https://github.com/cog-model/AmbiK-dataset で利用可能です。注:「ユーザーアイテンション」は「ユーザー意図」、「タスプラン」は「タスク計画」を指します。これらの表現は一般的に使用される日本語訳ですが、「user intents」と「task plans」を直接表すために括弧内に原文を記載しました。