HyperAI
vor 8 Tagen

WebShaper: Agentenbasierte Daten-Synthese durch Informationsbeschaffung Formalisierung

Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
WebShaper: Agentenbasierte Daten-Synthese durch Informationsbeschaffung
Formalisierung
Abstract

Die Einführung von Agenten, die auf Large Language Models (LLM) basieren, hat die künstliche Intelligenz revolutioniert, indem sie Lösungen für komplexe, offene Aufgaben durch webbasierte Informationsbeschaffungs-(IS-)Fähigkeiten ermöglicht. Die Knappheit hochwertiger Trainingsdaten hat die Entwicklung von IS-Agenten eingeschränkt. Traditionelle Ansätze folgen in der Regel einem informationsgetriebenen Paradigma, bei dem zunächst Web-Daten gesammelt und anschließend basierend auf der Abfrage Fragen generiert werden. Dies kann jedoch zu Inkonsistenzen zwischen der Informationsstruktur und der Schlussfolgerungsstruktur sowie zwischen Frage und Antwort führen. Um dies zu reduzieren, schlagen wir einen formalisierungsgetriebenen Ansatz zur IS-Datensynthese namens WebShaper vor, um ein Datensatz zu konstruieren. WebShaper formalisiert IS-Aufgaben systematisch durch Mengentheorie. Zentraler Bestandteil der Formalisierung ist der Begriff der Wissensprojektionen (Knowledge Projections, KP), die eine präzise Kontrolle der Schlussfolgerungsstruktur durch KP-Operationen ermöglichen. Während der Synthese beginnen wir zunächst mit der Erstellung von Seed-Aufgaben und führen anschließend einen mehrstufigen Erweiterungsprozess durch. In jedem Schritt erweitert ein agenter Expander die aktuelle formale Frage durch Nutzung von Retrieval- und Validierungstools, basierend auf unserer Formalisierung. Wir trainieren unser Modell auf dem synthetisierten Datensatz. Experimentelle Ergebnisse zeigen, dass WebShaper auf den Benchmarks GAIA und WebWalkerQA eine state-of-the-art Leistung unter offenen IS-Agenten erzielt.