HyperAIHyperAI
منذ 2 أشهر

تصنيف النص في البيئة الحقيقية: مجموعة بيانات كبيرة ذات ذيل طويل لتطبيع الأسماء

Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin
تصنيف النص في البيئة الحقيقية: مجموعة بيانات كبيرة ذات ذيل طويل لتطبيع الأسماء
الملخص

عادةً ما تظهر البيانات الحقيقية توزيعًا ذيله طويل، مع وجود بعض التسميات المتكررة بشكل كبير وعدد كبير من التسميات القليلة التكرار. تعتبر دراسة تطبيع أسماء المؤسسات حالة تطبيق مثالية توضح هذه الظاهرة. هناك العديد من المؤسسات حول العالم التي تتسم بأسماء متغيرة بشكل كبير في الأدبيات العامة المتاحة. في هذا العمل، قمنا أولًا بجمع مجموعة بيانات كبيرة لتطبيع أسماء المؤسسات تُعرف باسم LoT-insts1، والتي تحتوي على أكثر من 25 ألف فئة تعرض توزيعًا ذيليًا طبيعيًا. من أجل عزل سيناريوهات التعلم القليل التكرار والتعلم الصفر التكرار عن الفئات ذات التكرارات الكبيرة جدًا، بنينا مجموعة الاختبار الخاصة بنا من أربع مجموعات فرعية مختلفة: مجموعات ذات تكرارات كثيرة، ومتوسطة، وقليلة، بالإضافة إلى مجموعة مفتوحة صفرية (zero-shot open set). كما قمنا بإعادة تنفيذ عدة طرق أساسية مهمة على بياناتنا، مما يغطي نطاقًا واسعًا يمتد من الطرق المستندة إلى البحث إلى الطرق العصبية التي تستفيد من نموذج BERT المدرب مسبقًا. علاوة على ذلك، اقترحنا نموذجنا الخاص المدرب مسبقًا والمبني على BERT والذي يظهر قدرة أفضل على التعميم خارج التوزيع في مجموعات الاختبار ذات التكرارات القليلة والصفرية. بالمقارنة مع المجموعات الأخرى التي تركز على الظاهرة الذيلية الطويلة، فإن مجموعتنا تحتوي على كمية بيانات تدريب أكبر بمقدار عامل واحد من أكبر المجموعات الموجودة حاليًا ذات التوزيع الذيلي الطويل وهي طبيعية الذيل الطويل بدلاً من أن تكون مشتقة يدويًا. نعتقد أنها توفر سيناريو مهم و مختلف لدراسة هذه المشكلة. حسب علم us، هذه هي أول مجموعة بيانات للغة الطبيعية التي تركز على مشكلتي تصنيف الذيل الطويل والمجموعة المفتوحة (long-tailed and open-set classification problems).请注意,最后一句中的 "us" 应该是 "us" 的笔误,正确的应该是 "our"。因此,我将其翻译为 "نحن"。如果需要保持原文的错误,请告知我。

تصنيف النص في البيئة الحقيقية: مجموعة بيانات كبيرة ذات ذيل طويل لتطبيع الأسماء | أحدث الأوراق البحثية | HyperAI