HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Offene Daten-Synthese für tiefe Forschung

Ziyi Xia Kun Luo Hongjin Qian Zheng Liu

Offene Daten-Synthese für tiefe Forschung

Abstract

Große Sprachmodelle (LLMs) werden zunehmend erwartet, nicht nur einfache Faktenfragen zu beantworten, sondern auch komplexe Forschungsaufgaben zu bewältigen, die die Zerlegung von Fragen in Teilprobleme, die Koordination mehrschrittiger Schlussfolgerungen sowie die Synthese von Beweisen aus vielfältigen Quellen erfordern. Wir formalisieren solche Deep-Research-Aufgaben mit überprüfbarer Antwort als hierarchische Constraint-Satisfaction-Probleme (HCSPs), die grundlegend von Einzelconstraint-, Multi-Hop- oder flachen CSP-Formulierungen abweichen. Doch bestehende Benchmarks (z. B. Natural Questions, HotpotQA) erfassen diese Komplexität nicht adäquat, während neuere synthetische Datensätze oft Kurzschlüsse im Schlussfolgern, Wissenslecks oder unzureichende strukturelle Tiefe aufweisen. Um diese Lücke zu schließen, stellen wir InfoSeek vor – einen skalierbaren Rahmen zur Synthese komplexer Deep-Research-Aufgaben. InfoSeek nutzt ein Dual-Agent-System, um rekursiv aus großskaligen Webseiten einen Forschungsbaum aufzubauen, wobei Zwischennodes in valide Teilprobleme transformiert werden, und diese Bäume in natürlichsprachliche Fragen umwandelt, die den vollständigen Hierarchiepfad durchlaufen müssen. Zudem ermöglicht das System eine schnelle Skalierung und liefert über 50.000 Trainingsbeispiele, eine sorgfältig zusammengestellte Testmenge sowie Schlussfolgerungstrajektorien, die mittels Reject-Sampling generiert wurden. Experimente zeigen, dass Modelle, die auf InfoSeek trainiert wurden, konsistent stärkere Baselines übertrumpfen. Auf einer anspruchsvollen Benchmark wie BrowseComp-Plus erreichen 3B-LLMs, die mit InfoSeek optimiert wurden, Leistungen, die deutlich über viel größeren 32B-Modellen und leichtgewichtigen kommerziellen APIs (z. B. Gemini 2.5 Flash) liegen, und gleichzeitig Leistungen erreichen, die denen stärkerer APIs (z. B. Gemini 2.5 Pro) nahekommen. Durch die Erhaltung von Meta-Informationen wie Zwischenschritten und Retrieval-Labels unterstützt InfoSeek zudem fortgeschrittene Optimierungsstrategien, wie z. B. die Gestaltung komplexer Belohnungsfunktionen und exploration auf Trajektorieebene. Die Quellcodes und Datensätze stellen wir in \href{https://github.com/VectorSpaceLab/InfoSeek}{diesem Repository} zur Verfügung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Offene Daten-Synthese für tiefe Forschung | Forschungsarbeiten | HyperAI