2 个月前

SheetAgent:基于大型语言模型的电子表格推理与操作通用代理

Yibin Chen; Yifu Yuan; Zeyu Zhang; Yan Zheng; Jinyi Liu; Fei Ni; Jianye Hao; Hangyu Mao; Fuzheng Zhang
SheetAgent:基于大型语言模型的电子表格推理与操作通用代理
摘要

电子表格在万维网上无处不在,在各个领域的提高工作效率方面发挥着关键作用。近期,大型语言模型(LLM)已被尝试用于自动电子表格操作,但在涉及推理挑战的复杂现实任务中(例如,长时序多步骤推理和需求模糊的任务),其应用尚未得到充分研究。为了弥合与实际需求之间的差距,我们引入了SheetRM基准测试,该基准测试包含由现实生活挑战引起的长时序和多类别任务,这些任务需要依赖推理进行操作。为了解决上述挑战,我们进一步提出了SheetAgent,这是一种新颖的自主代理,利用了大型语言模型的强大能力。SheetAgent由三个协作模块组成:规划器(Planner)、信息提供者(Informer)和检索器(Retriever),通过迭代任务推理和反思,在无需人工干预的情况下实现了高级推理和精确的电子表格操作。大量实验表明,与基线方法相比,SheetAgent在多个基准测试中的通过率提高了20%到40%,在电子表格操作的精度上取得了显著提升,并展示了卓越的表格推理能力。更多详细信息和可视化内容可访问项目网站:https://sheetagent.github.io/。数据集和源代码可在https://anonymous.4open.science/r/SheetAgent获取。