HyperAIHyperAI
منذ 17 أيام

نمذجة عصبية للكيانات المعرفة والتركيب الصوتي (NEMO^2)

Dan Bareket, Reut Tsarfaty
نمذجة عصبية للكيانات المعرفة والتركيب الصوتي (NEMO^2)
الملخص

تمثّل التعرف على الكيانات المُعرّفة (Named Entity Recognition - NER) مهمة أساسية في معالجة اللغة الطبيعية (NLP)، وغالبًا ما تُصاغ كمهمة تصنيف على تسلسل من الرموز (tokens). إلا أن اللغات الغنية بالتركيب المورفولوجي (Morphologically-Rich Languages - MRLs) تُشكّل تحديًا لهذا النموذج الأساسي، إذ لا تتطابق حدود الكيانات المُعرّفة بالضرورة مع حدود الرموز، بل تُراعي حدود التركيب المورفولوجي. ولذلك، لمعالجة NER في اللغات الغنية بالتركيب المورفولوجي، نحتاج إلى الإجابة على سؤالين أساسيين: ما هي الوحدات الأساسية التي يجب تسميتها؟ وكيف يمكن اكتشاف هذه الوحدات وتصنيفها في البيئات الواقعية، حيث لا تتوفر بيانات مورفولوجية موثوقة (gold morphology)؟لدينا في هذه الدراسة دراسة تجريبية لهذه الأسئلة على معيار NER جديد، يحتوي على تسميات متوازية على مستوى الرموز (token-level) وعلى مستوى المورفيمات (morpheme-level)، وقد تم تطويره لصالح العبرية الحديثة، وهي لغة غنية بالتركيب المورفولوجي ومحفوفة بالغموض. تُظهر النتائج أن نمذجة حدود التركيب المورفولوجي بشكل صريح تؤدي إلى تحسين أداء NER، وأن المعمارية الهجينة الجديدة، التي تُجرى فيها عملية NER أولًا ثم تُستخدم لتقليل التحليل المورفولوجي، تتفوّق بشكل كبير على النموذج القياسي (pipeline) الذي يُجرى فيه التحليل المورفولوجي أولًا ثم NER، مُحددةً حدًا جديدًا لأداء كلا المهمتين: NER في العبرية والتحليل المورفولوجي للعبرية.

نمذجة عصبية للكيانات المعرفة والتركيب الصوتي (NEMO^2) | أحدث الأوراق البحثية | HyperAI