Command Palette

Search for a command to run...

2 个月前

VCBench:在风险投资中对LLMs进行基准测试

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

VCBench:在风险投资中对LLMs进行基准测试

摘要

SWE-bench 和 ARC-AGI 等基准测试表明,共享数据集能够显著推动人工通用智能(AGI)的发展进程。我们提出 VCBench,这是首个用于预测风险投资(VC)领域创始人成功概率的基准测试。该领域信号稀疏、结果不确定,即便是顶尖投资者的表现也仅属中等水平。在项目初期,市场指数的预测准确率仅为 1.9%。Y Combinator 的表现优于指数 1.7 倍,而一线投资机构则高出 2.9 倍。VCBench 提供了 9,000 个匿名化的创始人档案,经过标准化处理,在保留预测性特征的同时有效防止身份泄露,对抗性测试显示其重识别风险降低超过 90%。我们评估了九种前沿的大语言模型(LLMs),其中 DeepSeek-V3 的准确率超过基线六倍,GPT-4o 在 F0.5 指标上表现最佳,且大多数模型的表现已超越人类基准。VCBench 作为一个公开且持续演进的资源,可通过以下网址获取:[http URL],旨在建立一个由社区驱动的标准,用于可复现、隐私保护的早期风险投资预测中 AGI 的评估。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供