HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

VCBench : Évaluation des LLM dans le capital-investissement

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

VCBench : Évaluation des LLM dans le capital-investissement

Résumé

Des benchmarks tels que SWE-bench et ARC-AGI illustrent la manière dont les jeux de données partagés accélèrent les progrès vers une intelligence artificielle générale (IAG). Nous introduisons VCBench, le premier benchmark destiné à prédire le succès des fondateurs dans le domaine du capital-investissement (VC), un domaine marqué par des signaux rares, des résultats incertains, et où même les investisseurs de premier plan obtiennent des performances modérées. Au moment de leur création, les entreprises cotées dans l’indice du marché atteignent une précision de 1,9 %. Y Combinator surpasse cet indice d’un facteur 1,7, tandis que les firmes de premier rang affichent un avantage de 2,9 fois. VCBench met à disposition 9 000 profils anonymisés de fondateurs, standardisés afin de préserver les caractéristiques prédictives tout en résistant au risque de réidentification, les tests adverses montrant une réduction de plus de 90 % du risque de réidentification. Nous évaluons neuf modèles de langage à grande échelle (LLM) d’avant-garde. DeepSeek-V3 atteint une précision supérieure à six fois celle du modèle de base, tandis que GPT-4o réalise le meilleur score F0.5, la plupart des modèles dépassant les performances humaines. Conçu comme une ressource publique et évolutif, disponible à l’adresse http://[URL], VCBench établit une norme communautaire pour l’évaluation reproductible et respectueuse de la vie privée de l’IAG dans le domaine du pronostic des start-ups en phase initiale.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VCBench : Évaluation des LLM dans le capital-investissement | Articles de recherche | HyperAI