منذ 2 أشهر

تمثيلات توزيعية متعددة اللغات بدون محاذاة الكلمات

Karl Moritz Hermann; Phil Blunsom

الملخص

التمثيلات الموزعة للمعنى هي طريقة طبيعية لترميز العلاقات التغايرية بين الكلمات والعبارات في معالجة اللغة الطبيعية (NLP). من خلال التغلب على مشكلة ندرة البيانات، بالإضافة إلى توفير معلومات عن الصلة الدلالية التي لا تتوفر في التمثيلات المتقطعة، أثبتت التمثيلات الموزعة فائدتها في العديد من مهام معالجة اللغة الطبيعية. أظهرت الأبحاث الحديثة كيف يمكن تطبيق التمثيلات الدلالية التركيبية بنجاح على عدد من التطبيقات الأحادية اللغة مثل تحليل المشاعر. وفي الوقت نفسه، تم تحقيق بعض النجاح الأولي في العمل على تعلم التمثيلات المشتركة على مستوى الكلمة عبر اللغات. نجمع بين هذين النهجين بطرح طريقة لتعلم التمثيلات الموزعة في إطار متعدد اللغات. يتعلم نموذجنا تعيين متجهات متشابهة للجمل المتناظرة ومتجهات غير متشابهة للجمل التي ليست متناظرة دون الحاجة إلى تناظر الكلمات. نوضح أن تمثيلاتنا غنية بالمعلومات الدلالية ونطبقها على مهمة تصنيف الوثائق عبر اللغويات حيث نتفوق على الحالة السابقة لأفضل ما هو معروف (state of the art). علاوة على ذلك، باستخدام corpuses متوازية لمجموعات لغوية متعددة، نجد أن نموذجنا يتعلم تمثيلات تلتقط العلاقات الدلالية عبر اللغات التي لم يتم استخدام بيانات متوازية لها.