MLDR 다국어 문서 검색 데이터 세트
MLDR(Multilingual Long-Document Retrieval)은 Wikipedia, Wudao 및 mC4 다국어 코퍼스를 기반으로 구축된 다국어 장문서 검색 데이터 세트입니다. 이 프로젝트의 목적은 여러 언어의 장문 텍스트 검색 작업에 대한 연구 개발을 지원하는 것입니다. 아랍어(ar), 독일어(de), 영어(en), 스페인어(es), 프랑스어(fr), 힌디어(hi), 이탈리아어(it), 일본어(ja), 한국어(ko), 포르투갈어(pt), 러시아어(ru), 태국어(th), 중국어(zh)를 포함하여 유형적으로 구별되는 13개의 언어를 다룹니다.
특징 및 장점:
- 폭넓은 다국어 지원: 13개 언어가 포함되어 있으며, 여러 언어 계열(인도유럽어족, 중국티베트어족, 아랍어 등)을 포괄합니다.
- 긴 문서 기능: 문서의 평균 길이는 4,737단어로, 실제 상황에서 긴 텍스트 처리 요구 사항에 적합합니다.
- 표준화된 구성: GPT-3.5를 통해 고품질 쿼리를 생성하여 문서 콘텐츠에 대한 쿼리의 강력한 관련성을 보장합니다.
MLDR.torrent
시딩 1다운로드 중 0완료됨 29총 다운로드 횟수 26