HyperAIHyperAI

Command Palette

Search for a command to run...

zh-meme-sft-8k 중국 인터넷 밈 문화 데이터셋

날짜

2달 전

라이선스

MIT

태그

zh-meme-sft-8k는 중국 인터넷 밈 문화 학습을 위한 정밀 조정 데이터셋으로, 주로 유행하는 인터넷 밈을 이해하고 활용하는 대화 모델 학습에 사용됩니다. 이 데이터셋은 Douyin, Xiaohongshu, Bilibili 등의 소셜 미디어 플랫폼 댓글 상호작용을 기반으로 구축되었으며, 여러 차례의 정제 및 개선 과정을 거쳤습니다. 특징적으로, 실제와 같은 대화 구조, 여러 차례의 정제 과정을 통해 높은 품질로 유지된 유행 밈, 그리고 ChatML 형식을 사용한 표준화 등이 있습니다. 데이터 세트 구성:

  • 훈련 데이터 세트: 7,377개 샘플, TP3T 851개 포함
  • 검증 세트: 868개 샘플, TP3T 101개 포함
  • 테스트 세트: 435개 샘플, TP3T의 51%를 차지

대화 계층 구조 분포:

  • 레벨 1 대화 (게시글 - 댓글): 약 401 TP 3T
  • 레벨 2 대화(댓글-답글): 약 601 TP3T

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
zh-meme-sft-8k 중국 인터넷 밈 문화 데이터셋 | 데이터 세트 | HyperAI초신경