Discord에서 논의하기

8달 전

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

초록

SWE-bench 및 ARC-AGI와 같은 벤치마크는 공유 데이터셋이 인공일반지능(AGI) 달성에 있어 진전을 가속화하는 방식을 보여준다. 우리는 신호가 희박하고 결과가 불확실하며, 최고의 투자자조차도 제한된 성과를 보이는 벤처 캐피탈(VC) 분야에서 창업자의 성공 여부를 예측하는 데 초점을 맞춘 최초의 벤치마크인 VCBench를 소개한다. 초기 시장 지수는 정밀도 1.9%를 기록하였으며, Y Combinator는 이 지수를 1.7배 우수하게 달성했고, 1티어 기업들은 2.9배 뛰어난 성과를 보였다. VCBench는 9,000개의 익명화된 창업자 프로필을 제공하며, 예측 가능한 특성을 유지하면서도 신원 유출을 방지하기 위해 표준화된 구조를 채택하였다. 적대적 테스트 결과, 재식별 위험은 90% 이상 감소함을 확인하였다. 우리는 최신의 9종의 대규모 언어모델(LLM)을 평가하였으며, DeepSeek-V3는 기준 성능보다 6배 이상 높은 정밀도를 달성했고, GPT-4o는 F0.5 지표에서 최고 성능을 기록하였다. 대부분의 모델은 인간 전문가 수준의 성능을 초과하였다. VCBench는 이 하이퍼링크를 통해 공개되고 지속적으로 발전하는 자원으로 설계되었으며, 초기 단계 벤처 예측에서 AGI의 재현 가능하고 개인정보 보호를 고려한 평가를 위한 커뮤니티 기반 기준을 마련한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

8달 전

Rick Chen Joseph Ternasky Afriyie Samuel Kwesi Ben Griffin Aaron Ontoyin Yin et al

초록

SWE-bench 및 ARC-AGI와 같은 벤치마크는 공유 데이터셋이 인공일반지능(AGI) 달성에 있어 진전을 가속화하는 방식을 보여준다. 우리는 신호가 희박하고 결과가 불확실하며, 최고의 투자자조차도 제한된 성과를 보이는 벤처 캐피탈(VC) 분야에서 창업자의 성공 여부를 예측하는 데 초점을 맞춘 최초의 벤치마크인 VCBench를 소개한다. 초기 시장 지수는 정밀도 1.9%를 기록하였으며, Y Combinator는 이 지수를 1.7배 우수하게 달성했고, 1티어 기업들은 2.9배 뛰어난 성과를 보였다. VCBench는 9,000개의 익명화된 창업자 프로필을 제공하며, 예측 가능한 특성을 유지하면서도 신원 유출을 방지하기 위해 표준화된 구조를 채택하였다. 적대적 테스트 결과, 재식별 위험은 90% 이상 감소함을 확인하였다. 우리는 최신의 9종의 대규모 언어모델(LLM)을 평가하였으며, DeepSeek-V3는 기준 성능보다 6배 이상 높은 정밀도를 달성했고, GPT-4o는 F0.5 지표에서 최고 성능을 기록하였다. 대부분의 모델은 인간 전문가 수준의 성능을 초과하였다. VCBench는 이 하이퍼링크를 통해 공개되고 지속적으로 발전하는 자원으로 설계되었으며, 초기 단계 벤처 예측에서 AGI의 재현 가능하고 개인정보 보호를 고려한 평가를 위한 커뮤니티 기반 기준을 마련한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

VCBench: 벤처 캐피탈 분야에서의 LLMs 평가 | 문서 | HyperAI초신경