ProCQA コミュニティベースのプログラミングの質問と回答のデータセット

ProCQA は、北航大学によって作成された大規模なプログラミングの質問と回答のデータ セットで、約 500 万の質問と回答のペアが含まれています。Python、Java、JavaScriptなど11種類のプログラミング言語をカバー。これらの質問と回答には、アルゴリズム、フレームワーク、ライブラリの使用法などの複数の知識分野が含まれます。研究者は、データを StackOverflow コミュニティから取得し、短すぎる質問と回答のフィルタリングなどの厳密なルール フィルタリング戦略を採用しました。データの品質と公平性を確保するために、長すぎる場合は質問者が受け入れた回答のみを保持します。 ProCQA の質問と回答のペアは、自然に構造化された混合モダリティです。つまり、テキストとコードが質問と回答のフィールドで絡み合い、2 つのモダリティを調整するのに役立つ自然な監視信号をモデルに提供します。このデータセットは評価ベンチマークや事前トレーニング コーパスで広く使用でき、コード検索や質問応答タスクに重要なリソースを提供します。

ProCQA.torrent

做种 1

下载中 1

已完成 47

总下载 94

  • ProCQA/
    • README.md
      1.56 KB
    • README.txt
      3.13 KB
      • data/
        • procqa.zip
          2.34 GB