HyperAIHyperAI

Command Palette

Search for a command to run...

ProCQA コミュニティベースのプログラミングの質問と回答のデータセット

日付

2年前

サイズ

2.34 GB

データセット構成

北京航空航天大学

公開URL

github.com

ProCQA は、北航大学によって作成された大規模なプログラミングの質問と回答のデータ セットで、約 500 万の質問と回答のペアが含まれています。Python、Java、JavaScriptなど11種類のプログラミング言語をカバー。これらの質問と回答には、アルゴリズム、フレームワーク、ライブラリの使用法などの複数の知識分野が含まれます。研究者は、データを StackOverflow コミュニティから取得し、短すぎる質問と回答のフィルタリングなどの厳密なルール フィルタリング戦略を採用しました。データの品質と公平性を確保するために、長すぎる場合は質問者が受け入れた回答のみを保持します。 ProCQA の質問と回答のペアは、自然に構造化された混合モダリティです。つまり、テキストとコードが質問と回答のフィールドで絡み合い、2 つのモダリティを調整するのに役立つ自然な監視信号をモデルに提供します。このデータセットは評価ベンチマークや事前トレーニング コーパスで広く使用でき、コード検索や質問応答タスクに重要なリソースを提供します。

ProCQA.torrent
シーディング 1ダウンロード中 0完了 277総ダウンロード数 439
  • ProCQA/
    • README.md
      1.56 KB
    • README.txt
      3.13 KB
      • data/
        • procqa.zip
          2.34 GB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています