HyperAIHyperAI
منذ 2 أشهر

تحليل التغريدات إلى الاعتمادات العالمية

Yijia Liu; Yi Zhu; Wanxiang Che; Bing Qin; Nathan Schneider; Noah A. Smith
تحليل التغريدات إلى الاعتمادات العالمية
الملخص

ندرس مشكلة تحليل التغريدات باستخدام الاعتمادات العالمية (Universal Dependencies). نوسع إرشادات الاعتمادات العالمية لتغطية الأنشطة الخاصة في التغريدات التي تؤثر على تقسيم الكلمات إلى عناصر (tokenization)، تصنيف أجزاء الكلام (part-of-speech tagging)، والاعتماد المسمى (labeled dependencies). باستخدام هذه الإرشادات الموسعة، ننشئ بنك شجرة جديد للتغريدات باللغة الإنجليزية (Tweebank v2) يبلغ حجمه أربع مرات أكبر من بنك الشجرة غير المسمى (Tweebank v1) الذي قدمه كونج وزملاؤه (2014). نحدد الاختلافات بين مصححي البيانات لدينا ونظهر أن تحقيق التوحيد في التصحيح أمر صعب بسبب الغموض في فهم وتفسير التغريدات. ومع ذلك، باستخدام هذا البنك الجديد للشجرة، نبني نظام خط أنابيب لتحليل التغريدات الخام إلى اعتمادات عالمية. لتجاوز ضوضاء التصحيح دون التضحية بكفاءة الحساب، نقترح طريقة جديدة لاستخلاص مجموعة من 20 محرك تحليل انتقالي إلى محرك واحد. يحقق محرك تحليلنا تحسينًا بنسبة 2.2 في الدقة الاصطفافية (LAS) مقارنة بالأساس المرجعي غير المستخلص، ويتفوق على محركات التحليل التي تعتبر الأكثر تقدمًا في بنوك الشجرة الأخرى من حيث الدقة والسرعة.

تحليل التغريدات إلى الاعتمادات العالمية | أحدث الأوراق البحثية | HyperAI