Command Palette
Search for a command to run...
Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

摘要
SWE-bench 和 ARC-AGI 等基准测试表明,共享数据集能够显著推动人工通用智能(AGI)的发展进程。我们提出 VCBench,这是首个用于预测风险投资(VC)领域创始人成功概率的基准测试。该领域信号稀疏、结果不确定,即便是顶尖投资者的表现也仅属中等水平。在项目初期,市场指数的预测准确率仅为 1.9%。Y Combinator 的表现优于指数 1.7 倍,而一线投资机构则高出 2.9 倍。VCBench 提供了 9,000 个匿名化的创始人档案,经过标准化处理,在保留预测性特征的同时有效防止身份泄露,对抗性测试显示其重识别风险降低超过 90%。我们评估了九种前沿的大语言模型(LLMs),其中 DeepSeek-V3 的准确率超过基线六倍,GPT-4o 在 F0.5 指标上表现最佳,且大多数模型的表现已超越人类基准。VCBench 作为一个公开且持续演进的资源,可通过以下网址获取:[http URL],旨在建立一个由社区驱动的标准,用于可复现、隐私保护的早期风险投资预测中 AGI 的评估。