HyperAI超神経

SWE-bench 検証済みコード生成評価ベンチマーク データ セット

日付

10ヶ月前

サイズ

1.65 MB

組織

OpenAI
スタンフォード大学

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

データセットの紹介

このベンチマークは、既存の SWE ベンチの改良版 (サブセット) であり、現実世界のソフトウェアの問題を解決する AI モデルの能力をより確実に評価するように設計されています。

SWE ベンチの堅牢性と信頼性を向上させるために、OpenAI はプロのソフトウェア開発者による手動アノテーション キャンペーンを開始し、SWE ベンチ テスト セット内の各サンプルをスクリーニングして、単体テストの範囲が適切であること、問題の説明が明確であることを確認しました。

SWE-bench の作成者と協力して、SWE-bench Verified をリリースしました。これは、人間のアノテーターによって検証された 500 個のサンプルを含む、SWE-bench のオリジナルのテスト セットのサブセットです。このバージョンは、オリジナルの SWE-bench および SWE-bench Lite テスト セットを置き換えます。

SWE ベンチ検証では、GPT-4o は 33.2% サンプルを解決しましたが、最もパフォーマンスの高いオープンソース エージェント フレームワークである Agentless のスコアは 2 倍の 16% でした。

SWE-bench_Verified.torrent
シーディング 1ダウンロード中 0ダウンロード完了 137総ダウンロード数 134
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB