概要

近年の研究では、複雑なグラフィカルユーザーインターフェース（GUI）に基づくコンピュータタスクを自律的に実行できるエージェントの構築に取り組んでおり、人間とコンピュータのインタラクションに革命をもたらす可能性がある。しかし、既存の研究は主に短期間の相互作用に焦点を当てており、結果のみを検証する方式に依存しているため、長期間にわたるタスクの分解と実行を必要とする現実世界のGUIアプリケーションにおいてはスケーラビリティに限界がある。本研究では、現実的なコンピュータ環境で動作する汎用GUIエージェントの開発と評価を促進するため、新たな検証可能な長チェーンGUIデータセット「VeriGUI」を提案する。本データセットは以下の2つの重要な次元に重点を置いている。（1）長チェーンの複雑性：タスクを数百ステップにわたる相互依存するサブタスクの連鎖に分解し、どのサブタスクも有効な開始点として利用可能であるように明示的に設計されている；（2）サブタスクレベルの検証可能性：各サブタスク内で多様な探索戦略を可能にしつつ、各サブタスクの目標が検証可能かつ一貫性を保つことを確保している。VeriGUIは、デスクトップおよびウェブ環境におけるGUIタスクの遷移を人間の専門家によってアノテーション済みのデータセットである。異なる基礎モデルを用いたさまざまなエージェントを用いたVeriGUI上の広範な実験により、長期間のタスク処理において顕著な性能差が明らかとなり、GUIエージェントにより強固な計画立案および意思決定能力が求められていることが示された。

ソースPDF コードを表示