Updesh 인도어 합성 텍스트 데이터 세트
Updesh는 Microsoft가 2025년에 공개한 인도어 합성 텍스트 데이터 세트로, 인도어에 대한 대규모 언어 모델(LLM)의 사후 학습을 용이하게 하기 위해 만들어졌습니다.
이 데이터 세트에는 아삼어, 벵골어, 구자라트어, 힌디어, 칸나다어, 말라얄람어, 마라티어, 네팔어, 오디아어, 펀자브어, 타밀어, 텔루구어, 우르두어 언어로 된 6,800,000개의 추론 데이터와 2,100,000개의 생성된 데이터가 포함되어 있습니다.
Updesh_beta.torrent
시딩 1다운로드 중 0완료됨 6총 다운로드 횟수 7