مجموعة للتصنيف متعدد اللغات للوثائق في ثماني لغات

تصنيف الوثائق عبر اللغات يهدف إلى تدريب تصنيف وثائق على موارد بلغة واحدة ونقله إلى لغة مختلفة دون أي موارد إضافية. تم اقتراح عدة نهج في الأدب، والمنهجية الحالية الأفضل هي تقييمها على مجموعة فرعية من كوربوس رويترز المجلد الثاني. ومع ذلك، فإن هذه المجموعة الفرعية تغطي فقط عددًا قليلًا من اللغات (الإنجليزية، الألمانية، الفرنسية والإسبانية)، وتركز几乎所有已发表的作品都集中在英语和德语之间的转换。此外,我们观察到不同语言之间的类别先验分布存在显著差异。我们认为这使得多语言性的评估变得更加复杂。在本文中,我们提出了一种新的雷特兹语料库子集,该子集为八种语言提供了平衡的类别先验分布。通过增加意大利语、俄语、日语和汉语,我们涵盖了在句法、形态学等方面非常不同的语言。我们分别为所有语言转移方向提供了强大的基线,使用多语言单词和句子嵌入(embeddings)。我们的目标是提供一个自由可用的框架来评估跨语言文档分类,并希望通过这些手段促进这一重要领域的研究。修正后的翻译:تصنيف الوثائق عبر اللغات يهدف إلى تدريب تصنيف الوثائق على موارد بلغة واحدة ونقله إلى لغة مختلفة دون أي موارد إضافية. تم اقتراح عدة نهج في الأدب، والمنهجية الحالية الأفضل هي تقييمها على مجموعة فرعية من كوربوس رويترز المجلد الثاني. ومع ذلك، فإن هذه المجموعة الفرعية تغطي فقط عددًا قليلًا من اللغات (الإنجليزية، الألمانية، الفرنسية والإسبانية)، وتركز معظم الأعمال المنشورة على النقل بين الإنجليزية والألمانية. بالإضافة إلى ذلك، فقد لاحظنا أن توزيعات الاحتمالات الأولية للفئات تختلف بشكل كبير بين اللغات. نعتقد أن هذا يجعل تقييم متعدد اللغات أكثر تعقيدًا. في هذا البحث، نقترح مجموعة فرعية جديدة من كوربوس رويترز مع توزيعات احتمال أولي متوازنة لثمان لغات. عن طريق إضافة الإيطالية والروسية واليابانية والصينية، نغطي لغات تتسم بالاختلاف الكبير فيما يتعلق بالتركيب النحوي والمorphology (التشكل) وما إلى ذلك. نقدم خطوط أساس قوية لكل اتجاه للنقل بين اللغات باستخدام التمثيلات الكلامية والجملية متعددة اللغات (word and sentence embeddings). هدفنا هو تقديم إطار عمل متاح بحرية لتقييم تصنيف الوثائق عبر اللغات، ونأمل أن نساهم بهذه الوسائل في تعزيز البحث في هذا المجال الهام.