Command Palette
Search for a command to run...
VCBench: Benchmarking von LLMs im Venture Capital
VCBench: Benchmarking von LLMs im Venture Capital
Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al
Zusammenfassung
Benchmark-Tests wie SWE-bench und ARC-AGI zeigen, wie gemeinsam genutzte Datensätze den Fortschritt hin zu künstlicher allgemeiner Intelligenz (AGI) beschleunigen. Wir stellen VCBench vor, den ersten Benchmark zur Vorhersage des Erfolgs von Gründern im Venture-Capital-Bereich – einem Bereich, in dem Signale spärlich sind, Ergebnisse unsicher sind und selbst Top-Investoren nur bescheidene Performance erzielen. Zu Beginn erreicht der Marktindex eine Genauigkeit von 1,9 %. Y Combinator übertrifft den Index um den Faktor 1,7, während erstklassige Firmen eine 2,9-fach höhere Genauigkeit erzielen. VCBench bietet 9.000 anonymisierte Gründerprofile, die standardisiert wurden, um vorhersagefähige Merkmale zu bewahren, gleichzeitig aber das Risiko einer Identitätsentschlüsselung zu minimieren; adversarische Tests zeigen eine Reduktion des Wiedererkennungsrisikos um mehr als 90 %. Wir evaluieren neun aktuelle Spitzen-Modelle großer Sprachmodelle (LLMs). DeepSeek-V3 erreicht eine Genauigkeit, die mehr als sechsmal höher liegt als die Baseline, während GPT-4o den höchsten F0.5-Wert erzielt und die meisten Modelle die menschlichen Benchmarks übertreffen. Als öffentlicher und kontinuierlich erweiterbarer Ressource, zugänglich unter dieser http-URL, etabliert VCBench einen gemeindebasierten Standard für reproduzierbare und datenschutzgerechte Evaluation von AGI im Bereich der Frühphasen-Venture-Vorhersage.