Firefly Chinese Llama2 増分事前トレーニング データ セット
データセットは Firefly-LLaMA2-中国語プロジェクト 増分事前トレーニング データ (合計約 22 GB のテキスト) には、主に CLUE、ThucNews、CNews、COIG、Wikipedia などのオープンソース データ セットと、古代詩、散文、古典中国語などが収集されています。研究チームのデータ分布は以下の通り。

firefly-pretrain-dataset.torrent
シーディング 1ダウンロード中 1ダウンロード完了 79総ダウンロード数 109