FutureX: Ein fortgeschrittener Echtzeit-Test für LLM-Agenten im Bereich zukünftige Vorhersage

Zukunftsvorhersage ist eine komplexe Aufgabe für LLM-Agenten, die ein hohes Maß an analytischem Denken, Informationsbeschaffung, Kontextverständnis sowie Entscheidungsfindung unter Unsicherheit erfordert. Die Agenten müssen nicht nur riesige Mengen an dynamischen Informationen sammeln und interpretieren, sondern auch diverse Datenquellen integrieren, Unsicherheiten bewerten und ihre Vorhersagen anhand sich entwickelnder Trends anpassen – genau wie menschliche Experten in Bereichen wie Politik, Wirtschaft und Finanzen. Trotz ihrer Bedeutung existiert bisher kein großskaliger Benchmark zur Bewertung von Agenten im Bereich Zukunftsvorhersage, hauptsächlich aufgrund der Herausforderungen bei der Verarbeitung von Echtzeit-Updates und der Beschaffung zeitnaher, genauer Antworten. Um diesem Mangel zu begegnen, stellen wir $\textbf{FutureX}$ vor – einen dynamischen und live aktualisierten Evaluationsbenchmark, speziell für LLM-Agenten, die Aufgaben der Zukunftsvorhersage übernehmen. FutureX ist der größte und vielfältigste live-Benchmark für Zukunftsvorhersage und unterstützt tägliche Echtzeit-Updates. Durch eine automatisierte Pipeline zur Frageerhebung und Antwortsammlung wird Datenkontamination vermieden. Wir evaluieren 25 verschiedene LLM-/Agentenmodelle, darunter solche mit Reasoning-Fähigkeiten, Suchfunktionen sowie Integration externer Tools wie den Open-Source-Deep-Research-Agenten und geschlossene Deep-Research-Modelle. Diese umfassende Bewertung analysiert die adaptiven Schlussfolgerungsfähigkeiten und die Leistung von Agenten in dynamischen Umgebungen. Zudem liefern wir detaillierte Analysen der Ausfallmechanismen und Leistungsdefizite von Agenten bei zukunftsorientierten Aufgaben, einschließlich der Anfälligkeit für gefälschte Webseiten und der zeitlichen Gültigkeit von Informationen. Unser Ziel ist es, einen dynamischen, kontaminationsfreien Bewertungsstandard zu etablieren, der die Entwicklung von LLM-Agenten voranbringt, die auf dem Niveau professioneller menschlicher Analysten in komplexen Schlussfolgerungen und prognostischen Denkprozessen agieren können.