HyperAI
Command Palette
Search for a command to run...
zh-meme-sft-8k 中文互联网梗文化数据集
zh-meme-sft-8k 是一个中文互联网梗文化指令微调数据集,主要用于训练对话模型以理解和使用网络热梗。数据集构建自抖音、小红书和 B 站等社交平台的评论互动,经过多轮清洗和增强处理。其特征包括真实来源的对话结构、多轮清洗后的高质量热梗保留,并采用 ChatML 格式进行标准化。
数据集构成:
- 训练集: 7,377 样本,占比 85%
- 验证集: 868 样本,占比 10%
- 测试集: 435 样本,占比 5%
对话层级分布:
- 一级对话(帖子-评论):约 40%
- 二级对话(评论-回复):约 60%
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。