مجموعة بيانات استرجاع المستندات متعددة اللغات MLDR
MLDR (استرجاع المستندات الطويلة متعدد اللغات) عبارة عن مجموعة بيانات استرجاع مستندات طويلة متعددة اللغات تم إنشاؤها استنادًا إلى ويكيبيديا ووداو ومجموعة mC4 متعددة اللغات. ويهدف إلى دعم البحث والتطوير في مهام استرجاع النصوص الطويلة عبر اللغات. يغطي 13 لغة مميزة من حيث النمط، بما في ذلك العربية (ar)، والألمانية (de)، والإنجليزية (en)، والإسبانية (es)، والفرنسية (fr)، والهندية (hi)، والإيطالية (it)، واليابانية (ja)، والكورية (ko)، والبرتغالية (pt)، والروسية (ru)، والتايلاندية (th)، والصينية (zh).
المميزات والمزايا:
- تغطية واسعة متعددة اللغات: تتضمن 13 لغة، وتغطي عائلات لغوية متعددة (مثل الهندو أوروبية، والصينية التبتية، والعربية، وما إلى ذلك).
- ميزة المستند الطويل: يبلغ متوسط طول المستند 4737 كلمة، وهو مناسب لاحتياجات معالجة النصوص الطويلة في السيناريوهات الحقيقية.
- البناء الموحد: إنشاء استعلامات عالية الجودة من خلال GPT-3.5 لضمان الصلة القوية بين الاستعلامات ومحتوى المستند.
MLDR.torrent
البذر 1التنزيل 0مكتمل 29إجمالي التنزيلات 26