HyperAIHyperAI
منذ 18 أيام

أساليب التوافق التسلسلي للتصنيف التوافقي للجُملة المُجمّعة

{Yoon-Hyung Roh, SangKeun Jung, Jeesu Jung}
الملخص

تصنيف الجملة حسب نوع الكلمة (Part-of-speech tagging) هو مهمة أساسية توفر البنية الأساسية والمحتوى المعرفي الضروري للعمليات الإضافية في معالجة اللغة الطبيعية. وعلى الرغم من أن مشكلة تصنيف الجملة حسب نوع الكلمة كانت تقليديًا تُصاغ كمهمة تصنيف متسلسل، إلا أن جميع الطرق المُقترحة للتجانس (ensemble approaches) لم تُركّز على محاذاة التسلسل (sequence alignment) أثناء مرحلة ما بعد المعالجة. في هذا العمل، نقدّم تقنية تجميع موزونة تعتمد على منهجية محاذاة التسلسل لتصنيف الجملة حسب نوع الكلمة. من خلال هذه التقنية، نُقدّم معالجًا ما بعد بسيطًا ولكنه قوي، وهو مُختار لجزء فرعي من التسلسل (sub-sequence selector) يستند إلى درجة شبه مماثلة تُحسب باستخدام منهجيات محاذاة التسلسل. تعتمد هذه المنهجيات على أسلوب محاذاة الحمض النووي (DNA alignment) القائم مسبقًا، وتطبّقه على اللغة الطبيعية. أجريت تجارب باستخدام تجميع لطرق محاذاة التسلسل مع وحدات جزئية مختلفة، وهي: التسلسل ككل، والكلمة، وفترة الحروف (character span). أظهرت التجارب على مجموعتي بيانات باللغة الإنجليزية والكورية أن تقنية التجميع باستخدام محاذاة التسلسل التي نقترحها تفوق طريقة التصويت الصلبة (hard voting) الأساسية. وسجلت معظم نتائج منهجية التجميع باستخدام محاذاة التسلسل مع وحدات جزئية مختلفة زيادة في مقياس F1 مقارنة بطرق التصويت الصلبة، حيث ارتفع مقياس F1 بنسبة تصل إلى 0.36 مقارنة بطريقة التصويت الصلبة العامة على مجموعة الاختبار.