HyperAIHyperAI
منذ 11 أيام

نهج معهد كارنيجي ميلون للغة الفارسية في معالجة اللغة الطبيعية

{Mehdi Manshadi, Weston Feely, Lori Levin, Robert Frederking}
الملخص

بينما تتوفر العديد من الأدوات عالية الجودة لتحليل اللغات الكبرى مثل الإنجليزية، فإن أدوات مجانية مماثلة للغات المهمة ولكن ذات الموارد المحدودة مثل الفارسية تكون أكثر صعوبة في الحصول عليها ودمجها في واجهة تحليل لغوي طبيعي (NLP) مفيدة. نقدم هنا واجهة تحليل فارسية دقيقة وفعالة قمنا بتركيبها، والتي قد تكون مفيدة لآخرين يرغبون في العمل مع النص الفارسي المكتوب. تتضمن المكونات والموارد المسبقة التي استخدمناها في هذا المشروع ما يلي: مُحلل الاعتماد "Carnegie Mellon TurboParser" و"TurboTagger" (Martins et al., 2010)، المدرب على مختبر "Dadegan Treebank" (Rasooli et al., 2013)، ومنظف النص الفارسي "PrePer" من جامعة أوبسالا (Seraji, 2013)، وموثّق النص الفارسي من جامعة أوبسالا (Seraji et al., 2012a)، بالإضافة إلى "PerStem" لجون ديهداري (Jadidinejad et al., 2010). وبواسطة هذه المجموعة من الأدوات (المدمجة مع وحدات إضافية لتنقية وتقسيم النص قمنا بتطويرها ونشرها)، تم تحقيق معدل دقة في تحليل الاعتماد (labeled attachment score) بلغ 89.49٪، ومعدل ارتباط غير مُسمّى (unlabeled attachment score) بلغ 92.19٪، ودقة تصنيف العلامات (label accuracy score) بلغ 91.38٪ على مجموعة بيانات اختبار مُستقلة لتحليل الاعتماد. جميع المكونات والموارد المستخدمة متاحة مجانًا. بالإضافة إلى وصف هذه المكونات والموارد، نوضح أيضًا الأسباب التي دفعتنا لاختيارها.

نهج معهد كارنيجي ميلون للغة الفارسية في معالجة اللغة الطبيعية | أحدث الأوراق البحثية | HyperAI