HyperAIHyperAI

Command Palette

Search for a command to run...

VCBench: Benchmarking von LLMs im Venture Capital

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

Zusammenfassung

Benchmark-Tests wie SWE-bench und ARC-AGI zeigen, wie gemeinsam genutzte Datensätze den Fortschritt hin zu künstlicher allgemeiner Intelligenz (AGI) beschleunigen. Wir stellen VCBench vor, den ersten Benchmark zur Vorhersage des Erfolgs von Gründern im Venture-Capital-Bereich – einem Bereich, in dem Signale spärlich sind, Ergebnisse unsicher sind und selbst Top-Investoren nur bescheidene Performance erzielen. Zu Beginn erreicht der Marktindex eine Genauigkeit von 1,9 %. Y Combinator übertrifft den Index um den Faktor 1,7, während erstklassige Firmen eine 2,9-fach höhere Genauigkeit erzielen. VCBench bietet 9.000 anonymisierte Gründerprofile, die standardisiert wurden, um vorhersagefähige Merkmale zu bewahren, gleichzeitig aber das Risiko einer Identitätsentschlüsselung zu minimieren; adversarische Tests zeigen eine Reduktion des Wiedererkennungsrisikos um mehr als 90 %. Wir evaluieren neun aktuelle Spitzen-Modelle großer Sprachmodelle (LLMs). DeepSeek-V3 erreicht eine Genauigkeit, die mehr als sechsmal höher liegt als die Baseline, während GPT-4o den höchsten F0.5-Wert erzielt und die meisten Modelle die menschlichen Benchmarks übertreffen. Als öffentlicher und kontinuierlich erweiterbarer Ressource, zugänglich unter dieser http-URL, etabliert VCBench einen gemeindebasierten Standard für reproduzierbare und datenschutzgerechte Evaluation von AGI im Bereich der Frühphasen-Venture-Vorhersage.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VCBench: Benchmarking von LLMs im Venture Capital | Paper | HyperAI