تحسين تحليل التركيب باستخدام الانتباه على الطول

تحليل التركيب النحوي هو مهمة أساسية ومحورية لفهم اللغة الطبيعية، حيث يمكن أن يسهم تمثيل جيد للمعلومات السياقية في تحسين هذه المهمة. وقد أُثبت أن مُؤشرات N-gram، وهي نوع تقليدي من الميزات المستخدمة لتمثيل المعلومات السياقية، مفيدة في العديد من المهام، وبالتالي يمكن أن تكون مفيدة أيضًا لتحليل التركيب النحوي إذا تم نمذجتها بشكل مناسب. في هذه الورقة، نقترح استخدام "الانتباه المُتَنَوِّع على الفترات" (span attention) في تحليل التركيب النحوي القائم على الرسم البياني والمعتمد على الشبكات العصبية، بهدف الاستفادة من معلومات N-gram. ونظرًا لأن المُحلّلات الحالية القائمة على الرسم البياني والتي تعتمد على معالج Transformer تمثل الفترات (spans) من خلال طرح الحالات المخفية عند حدود الفترات، ما قد يؤدي إلى فقدان المعلومات، خاصة في الفترات الطويلة، نقوم بدمج مُؤشرات N-gram في تمثيلات الفترات من خلال ترجيحها وفقًا لمساهمتها في عملية التحليل. بالإضافة إلى ذلك، نقترح "الانتباه المُتَنَوِّع الفئوي على الفترات" (categorical span attention)، الذي يُرجّح مُؤشرات N-gram ضمن فئات مختلفة من الطول، مما يعزز أداء النموذج خصوصًا في تحليل الجمل الطويلة. وأظهرت النتائج التجريبية على ثلاث مجموعات بيانات معيارية شائعة الاستخدام فعالية نهجنا في تحليل اللغة العربية والصينية والإنجليزية، حيث حقق النموذج أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في جميع هذه اللغات.