5ヶ月前

コード生成

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

概要

競技プログラミングは、大規模言語モデル（LLM）の推論力およびコーディング能力を評価するための重要な指標として浮上している。既存のベンチマークにおいて著しい進展が見られる一方で、本研究では現在の評価手法がモデルの実力を過大評価しており、LLMと優れた人間プログラマーとの間に大きな格差が存在していることを指摘する。この格差は、2つの主要な制約要因に起因する。第一に、ベンチマーク問題の難易度および範囲が不十分であること。第二に、低品質なテストケースによる評価バイアスが存在することである。これらの課題を克服するため、本研究では、IOIやICPCといった主要なプログラミングコンテストから問題を抽出した新しいベンチマーク「AetherCode」を提案する。AetherCodeは、より広範なカバレッジと高い難易度を実現している。さらに、自動生成と人間によるキュレーションを組み合わせたハイブリッド手法によって構築された、包括的かつ専門家によって検証されたテストスイートを搭載しており、厳密かつ信頼性の高い評価を可能にしている。困難な問題設計と堅牢な評価手法を統合することで、AetherCodeはLLMの能力をより正確に測定する手段を提供し、コード推論分野における今後の研究の新たな基準を提示する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

コード生成

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

概要

競技プログラミングは、大規模言語モデル（LLM）の推論力およびコーディング能力を評価するための重要な指標として浮上している。既存のベンチマークにおいて著しい進展が見られる一方で、本研究では現在の評価手法がモデルの実力を過大評価しており、LLMと優れた人間プログラマーとの間に大きな格差が存在していることを指摘する。この格差は、2つの主要な制約要因に起因する。第一に、ベンチマーク問題の難易度および範囲が不十分であること。第二に、低品質なテストケースによる評価バイアスが存在することである。これらの課題を克服するため、本研究では、IOIやICPCといった主要なプログラミングコンテストから問題を抽出した新しいベンチマーク「AetherCode」を提案する。AetherCodeは、より広範なカバレッジと高い難易度を実現している。さらに、自動生成と人間によるキュレーションを組み合わせたハイブリッド手法によって構築された、包括的かつ専門家によって検証されたテストスイートを搭載しており、厳密かつ信頼性の高い評価を可能にしている。困難な問題設計と堅牢な評価手法を統合することで、AetherCodeはLLMの能力をより正確に測定する手段を提供し、コード推論分野における今後の研究の新たな基準を提示する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています