日付

2年前

サイズ

1.65 MB

データセット構成

タグ

データセットの紹介

このベンチマークは、既存の SWE ベンチの改良版 (サブセット) であり、現実世界のソフトウェアの問題を解決する AI モデルの能力をより確実に評価するように設計されています。 SWE ベンチの堅牢性と信頼性を向上させるために、OpenAI はプロのソフトウェア開発者による手動アノテーションキャンペーンを開始し、SWE ベンチテストセット内の各サンプルをスクリーニングして、単体テストの範囲が適切であること、問題の説明が明確であることを確認しました。 SWE-bench の作成者と協力して、SWE-bench Verified をリリースしました。これは、人間のアノテーターによって検証された 500 個のサンプルを含む、SWE-bench のオリジナルのテストセットのサブセットです。このバージョンは、オリジナルの SWE-bench および SWE-bench Lite テストセットを置き換えます。 SWE ベンチ検証では、GPT-4o は 33.2% サンプルを解決しましたが、最もパフォーマンスの高いオープンソースエージェントフレームワークである Agentless のスコアは 2 倍の 16% でした。

SWE-bench_Verified.torrent

シーディング 1ダウンロード中 0完了 240総ダウンロード数 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

1.65 MB

データセット構成

タグ

データセットの紹介

SWE-bench_Verified.torrent

シーディング 1ダウンロード中 0完了 240総ダウンロード数 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

CL-bench コンテキスト学習評価ベンチマークデータセット

4ヶ月前

GroundingME 複雑シーン理解評価データセット

6ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

データセットの紹介

AIでAIを構築

HyperAI Newsletters

データセットの紹介

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

データセットの紹介

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

Command Palette

SWE-bench 検証済みコード生成評価ベンチマーク データ セット

データセットの紹介

AIでAIを構築

HyperAI Newsletters

Command Palette

SWE-bench 検証済みコード生成評価ベンチマーク データ セット

データセットの紹介

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

SWE-bench 検証済みコード生成評価ベンチマーク データ セット

データセットの紹介

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

SWE-bench 検証済みコード生成評価ベンチマークデータセット

SWE-bench 検証済みコード生成評価ベンチマークデータセット

SWE-bench 検証済みコード生成評価ベンチマークデータセット