ChuLo: تمثيل المعلومات الرئيسية على مستوى القطعة للوثائق الطويلة

حققت النماذج المستندة إلى الشبكات العصبية من نوع ترانسفورمر (Transformer-based models) نجاحًا ملحوظًا في مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإن قدرتها على التعامل مع الوثائق الطويلة تواجه قيودًا حاسوبية. تحاول الأساليب التقليدية، مثل تقليم المدخلات (truncating inputs)، الانتباه الذاتي النادر (sparse self-attention)، وتقسيم المدخلات إلى أجزاء (chunking)، التخفيف من هذه المشكلات، لكنها غالبًا ما تؤدي إلى فقدان المعلومات وتعرقل قدرة النموذج على التقاط الارتباطات البعيدة.في هذا البحث، نقدم طريقة تمثيل جديدة للقطع تسمى "تشولو" (ChuLo) لفهم الوثائق الطويلة والتي تعالج هذه القيود. يقوم تشولو بتجمع عناصر الإدخال باستخدام استخراج الجمل الرئيسية غير المشرف عليه (unsupervised keyphrase extraction)، مع التركيز على القطع القائمة على الجمل الرئيسية ذات الأهمية الدلالية لحفظ محتوى الوثيقة الأساسية بينما يقلل من طول الإدخال. هذا الأسلوب يقلل من فقدان المعلومات ويعزز كفاءة النماذج المستندة إلى الترانسفورمر.من المهم الحفاظ على جميع العناصر في فهم الوثائق الطويلة، خاصة في مهام تصنيف العناصر، لضمان عدم فقدان التوضيحات الدقيقة التي تعتمد على سياق التسلسل الكامل. قدمنا تقييمًا لطريقتنا في عدة مهام تصنيف وثائق طويلة ومهام تصنيف عناصر الوثائق الطويلة، مما أظهر فعاليتها من خلال تحليل كمي وكيفي شامل. يتم توفير تنفيذ طريقتنا بشكل مصدر مفتوح على https://github.com/adlnlp/Chulo.