HyperAIHyperAI

Command Palette

Search for a command to run...

zh-meme-sft-8k 中文互联网梗文化数据集

日期

4 小时前

许可证

MIT

标签

zh-meme-sft-8k 是一个中文互联网梗文化指令微调数据集,主要用于训练对话模型以理解和使用网络热梗。数据集构建自抖音、小红书和 B 站等社交平台的评论互动,经过多轮清洗和增强处理。其特征包括真实来源的对话结构、多轮清洗后的高质量热梗保留,并采用 ChatML 格式进行标准化。

数据集构成:

  • 训练集: 7,377 样本,占比 85%
  • 验证集: 868 样本,占比 10%
  • 测试集: 435 样本,占比 5%

对话层级分布:

  • 一级对话(帖子-评论):约 40%
  • 二级对话(评论-回复):约 60%

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供