LongAlign-10k は、長いコンテキスト アラインメント タスクで大規模モデルが直面する課題に対処するために設計された清華大学によって提案されたデータ セットで、8k ~ 64k の長さの 10,000 個の長い命令データが含まれています。
構築プロセス中、データセットはまず書籍、百科事典、学術論文、コードなど 9 つの異なる分野から資料を抽出し、次にクロード 2.1 大型モデルを使用して、長い形式のコンテキストで多様なタスクと回答を生成しました。このデータセットは、長いコンテキストにおける大規模モデルのパフォーマンスと、10,000 ~ 100,000 の長さのタスク命令に従う能力を評価するように設計されています。
做种 1
下载中 1
已完成 97
总下载 230