HyperAI超神経

pyMethods2Test プログラミング言語処理データセット

pyMethods2Test データセットは、2025 年にネブラスカ大学リンカーン校の研究者によって作成されました。このデータセットには、多数のオープンソースの単体テスト方法と対応するフォーカス マップが含まれています。このデータセットの目的は、Python コードの効果的な単体テスト ケースを生成し、大規模なテスト データセットにおける Python 言語のギャップを埋めることです。関連する論文の結果はpyMethods2Test: 焦点メソッドにマッピングされた Python テストのデータセット「」は、大規模言語モデル (LLM) をトレーニングして優れた Python 単体テスト ケースを生成するために広く使用されており、LLM に豊富なトレーニング データを提供して、Python コードのテストを生成する方法を学習できるようにします。

このデータセットは、Pytest および unittest フレームワークを使用する GitHub 上の 88,846 個の Python プロジェクトをマイニングすることによって構築され、22,662,037 個のテスト メソッドと 2,198,378 個のフォーカス マップのコレクションが構築されています。

このデータセットには、テスト メソッドとフォーカス メソッドのマッピングが 2,200 万件以上含まれており、テスト ファイル パス、フォーカス ファイル パス、クラス名、メソッド名、行番号など、各マッピングの詳細なコンテキスト情報が提供されます。処理しやすいように JSON 形式で保存されており、フォーカス メソッド コンテキストを生成するスクリプトも提供されています。

データは 2 つの ZIP ファイルに保存されます。事前にマイニングされたフォーカスデータのみを使用する場合は、解凍してください focal-data.zip ファイル(解凍後約2GB)。大きい raw-data.zip ファイル (解凍後約 42 GB) には、リポジトリから抽出されたクラスやメソッドなど、フォーカス データを生成するために使用された生データが含まれています。

pyMethods2Test.torrent
シーディング 2ダウンロード中 2ダウンロード完了 34総ダウンロード数 55
  • pyMethods2Test/
    • README.md
      2.14 KB
    • README.txt
      4.29 KB
      • data/
        • pyMethods2Test.zip
          3.74 GB