HyperAIHyperAI

Command Palette

Search for a command to run...

FinSearchComp: Ein Schritt hin zu einer realistischen, fachlich hochwertigen Bewertung von Finanzsuche und -reasoning

Zusammenfassung

Die Suche ist als zentrale Infrastruktur für LLM-basierte Agenten hervorgetreten und wird weithin als entscheidend für den Weg hin zu allgemeinerer Intelligenz angesehen. Die Finanzbranche stellt dabei einen besonders anspruchsvollen Prüfstein dar: Analysten führen regelmäßig komplexe, mehrstufige Suchvorgänge über zeitkritische, fachspezifische Daten durch, was sie ideal für die Bewertung sowohl der Suchkompetenz als auch der auf Wissen basierenden Schlussfolgerung macht. Bisher existieren jedoch keine öffentlichen Finanzdatensätze, die die Fähigkeit von End-to-End-Agenten im Bereich Datenrecherche evaluieren, hauptsächlich weil die Erstellung realistischer, komplexer Aufgaben tiefgehendes Finanzwissen erfordert und zeitkritische Daten schwer zu bewerten sind.Wir stellen FinSearchComp vor – den ersten vollständig quelloffenen Benchmark für realistische, offene Domänen-Finanzrecherche und -Schlussfolgerung. FinSearchComp umfasst drei Aufgaben – Zeitkritische Datenerfassung, Einfache historische Abfrage und Komplexe historische Untersuchung –, die die Arbeitsabläufe realer Finanzanalysten eng nachbilden. Um Sicherheit und Schwierigkeitsgrad zu gewährleisten, haben wir 70 professionelle Finanzexperten zur Annotation hinzugezogen und eine streng strukturierte, mehrstufige Qualitätssicherungspipeline implementiert. Der Benchmark enthält 635 Fragen, die globale und regionale Märkte in China betreffen, und wir evaluieren 21 Modelle (Produkte) darauf. Grok 4 (web) erreicht die beste Leistung im globalen Teilabschnitt und nähert sich der Genauigkeit von Experten an. DouBao (web) führt im Bereich Greater China. Experimentelle Analysen zeigen, dass die Integration von Web-Suche und fachspezifischen Plugins die Ergebnisse auf FinSearchComp erheblich verbessert, und dass Herkunft der Modelle sowie der verwendeten Tools signifikante Auswirkungen auf die Performance haben.Durch die Ausrichtung an realen Analystenaufgaben und die Bereitstellung einer End-to-End-Evaluation bietet FinSearchComp ein professionelles, hochanspruchsvolles Testfeld für komplexe Finanzrecherche und -schlussfolgerung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp