TinyStories 단편 소설 합성 데이터 세트
* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
이 데이터 세트는 GPT-3.5와 GPT-4에서 생성한 단편 소설의 합성 데이터 세트이며, 포함된 어휘는 3~4세 어린이의 이해 범위로 제한됩니다. 소규모 언어 모델(LM)을 훈련하고 평가하도록 설계되었으며, 규모가 작음(매개변수 500만 개 미만)이나 아키텍처가 더 단순함(변환 블록이 하나만 있음)에도 불구하고 이 데이터 세트로 훈련된 모델은 유창하고 일관되며 다양하고 문법적으로 거의 완벽한 단편 소설을 생성할 수 있습니다.
TinyStories 데이터 세트는 2023년 Microsoft Research에서 제안되었으며 관련 논문은 “TinyStories: 언어 모델은 얼마나 작아도 일관된 영어를 말할 수 있을까?"
TinyStories.torrent
시딩 1다운로드 중 1완료됨 74총 다운로드 횟수 211