HyperAIHyperAI

Command Palette

Search for a command to run...

Console

SWE-bench 検証済みコード生成評価ベンチマーク データ セット

データセットの紹介

このベンチマークは、既存の SWE ベンチの改良版 (サブセット) であり、現実世界のソフトウェアの問題を解決する AI モデルの能力をより確実に評価するように設計されています。

SWE ベンチの堅牢性と信頼性を向上させるために、OpenAI はプロのソフトウェア開発者による手動アノテーション キャンペーンを開始し、SWE ベンチ テスト セット内の各サンプルをスクリーニングして、単体テストの範囲が適切であること、問題の説明が明確であることを確認しました。

SWE-bench の作成者と協力して、SWE-bench Verified をリリースしました。これは、人間のアノテーターによって検証された 500 個のサンプルを含む、SWE-bench のオリジナルのテスト セットのサブセットです。このバージョンは、オリジナルの SWE-bench および SWE-bench Lite テスト セットを置き換えます。

SWE ベンチ検証では、GPT-4o は 33.2% サンプルを解決しましたが、最もパフォーマンスの高いオープンソース エージェント フレームワークである Agentless のスコアは 2 倍の 16% でした。

SWE-bench_Verified.torrent
シード処理 2ダウンロード中 0完了 235総ダウンロード数 317
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最適価格のGPUでAI開発を加速。

AI共同コーディング
すぐに利用可能な GPU
最適価格

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています