HyperAI
Command Palette
Search for a command to run...
zh-meme-sft-8k 中国インターネットミーム文化データセット
zh-meme-sft-8kは、中国のインターネットミーム文化に関する指導用ファインチューニングデータセットであり、主に、流行のインターネットミームを理解し活用するための対話モデルのトレーニングに使用されます。このデータセットは、Douyin、Xiaohongshu、Bilibiliなどのソーシャルメディアプラットフォームにおけるコメントのやり取りから構築されており、複数回のクリーニングと強化を経ています。その特徴としては、本格的な対話構造、複数回のクリーニング後も高品質な流行ミームが保持されていること、ChatML形式による標準化などが挙げられます。
データセットの構成:
- トレーニングセット:7,377サンプル、うちTP3Tは851サンプル
- 検証セット:868サンプル、うち101サンプルはTP3T
- テストセット:435サンプル(TP3Tの51%を占める)
対話階層の分布:
- レベル1の会話(投稿 - コメント):約401 TP 3T
- レベル2の対話(コメント・返信):約601 TP3T
このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。