2ヶ月前
SheetCopilot: 大規模言語モデルを活用したソフトウェア生産性の向上
Hongxin Li; Jingran Su; Yuntao Chen; Qing Li; Zhaoxiang Zhang

要約
コンピュータのエンドユーザーは、表形式データ処理やプロジェクトスケジュール作成などの日常的なタスクに数十億時間費やしています。これらのタスクの多くは反復的で誤りが生じやすいものですが、多くのエンドユーザーはこれらの負担となる作業を自動化するスキルを持っていません。大規模言語モデル(LLMs)の登場により、自然言語によるユーザーリクエストに基づいてソフトウェアを操作することが現実的な目標となりました。本研究では、自然言語のタスクを受け取り、スプレッドシートを制御して要件を満たすSheetCopilotエージェントを提案します。スプレッドシートソフトウェアの機能性を抽象化した一連の原子的なアクションを定義し、さらに状態機械ベースのタスク計画フレームワークを設計することで、LLMがスプレッドシートと堅牢に相互作用できるようにしました。私たちは代表的なデータセットを作成し、221件のスプレッドシート制御タスクを含めています。また、完全自動化された評価パイプラインを確立し、LLMがソフトウェア制御タスクにおいて持つ能力を厳密にベンチマークできるようにしました。SheetCopilotは単一代生成で44.3%のタスクを正しく完了しており、強力なコード生成基準に対して大幅に優れています。プロジェクトページ: https://sheetcopilot.github.io/.