DS-1000 コード生成ベンチマーク データ セット
DS-1000 は、香港大学、北京大学、その他の大学が 2022 年に共同でリリースしたコード生成分野のベンチマーク データセットです。データ サイエンス分野のコード生成タスクに焦点を当てています。関連する論文結果は「」です。DS-1000: データ サイエンス コード生成のための自然で信頼性の高いベンチマーク”。
このデータ セットには、StackOverflow から生成された 1,000 件の実際のデータ サイエンスの質問が含まれており、NumPy、Pandas、TensorFlow など、Python で広く使用されている 7 つのデータ サイエンス ライブラリをカバーしています。質問は現実世界の多様性と実用性を反映しているだけでなく、複数基準の自動評価方法を通じてソリューションの信頼性と正確性を保証します。 DS-1000 は、表面的および意味論的な摂動や困難な書き換えによってモデルがトレーニング データを単純に記憶することを防ぐことに特別な注意を払って構築されており、正しい答えを提供するにはモデルが質問を真に理解する必要があります。
データ セットの構造は非常に明確であり、各ライブラリの質問は完了と挿入の 2 つのプロンプト形式で表示され、各質問にはメタ情報、入力データ、参照コード、テスト コードなどが含まれています。この設計によりデータ セットが作成されます。完全かつ検証可能です。 DS-1000 は、コードの自動補完から教育、学習、パフォーマンス評価まで幅広い応用シナリオがあり、重要な役割を果たします。