5 个月前

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

摘要

SWE-bench 和 ARC-AGI 等基准测试表明，共享数据集能够显著推动人工通用智能（AGI）的发展进程。我们提出 VCBench，这是首个用于预测风险投资（VC）领域创始人成功概率的基准测试。该领域信号稀疏、结果不确定，即便是顶尖投资者的表现也仅属中等水平。在项目初期，市场指数的预测准确率仅为 1.9%。Y Combinator 的表现优于指数 1.7 倍，而一线投资机构则高出 2.9 倍。VCBench 提供了 9,000 个匿名化的创始人档案，经过标准化处理，在保留预测性特征的同时有效防止身份泄露，对抗性测试显示其重识别风险降低超过 90%。我们评估了九种前沿的大语言模型（LLMs），其中 DeepSeek-V3 的准确率超过基线六倍，GPT-4o 在 F0.5 指标上表现最佳，且大多数模型的表现已超越人类基准。VCBench 作为一个公开且持续演进的资源，可通过以下网址获取：[http URL]，旨在建立一个由社区驱动的标准，用于可复现、隐私保护的早期风险投资预测中 AGI 的评估。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

摘要

SWE-bench 和 ARC-AGI 等基准测试表明，共享数据集能够显著推动人工通用智能（AGI）的发展进程。我们提出 VCBench，这是首个用于预测风险投资（VC）领域创始人成功概率的基准测试。该领域信号稀疏、结果不确定，即便是顶尖投资者的表现也仅属中等水平。在项目初期，市场指数的预测准确率仅为 1.9%。Y Combinator 的表现优于指数 1.7 倍，而一线投资机构则高出 2.9 倍。VCBench 提供了 9,000 个匿名化的创始人档案，经过标准化处理，在保留预测性特征的同时有效防止身份泄露，对抗性测试显示其重识别风险降低超过 90%。我们评估了九种前沿的大语言模型（LLMs），其中 DeepSeek-V3 的准确率超过基线六倍，GPT-4o 在 F0.5 指标上表现最佳，且大多数模型的表现已超越人类基准。VCBench 作为一个公开且持续演进的资源，可通过以下网址获取：[http URL]，旨在建立一个由社区驱动的标准，用于可复现、隐私保护的早期风险投资预测中 AGI 的评估。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供