Command Palette
Search for a command to run...
Firefly 中文 Llama2 增量预训练数据集
该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。

firefly-pretrain-dataset.torrent
Seeding 1Downloading 0Completed 161Total Downloads 255
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
AI Co-coding
Ready-to-use GPUs
Best Pricing
HyperAI Newsletters
订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供