HyperAIHyperAI
منذ شهر واحد

سؤال: تمثيل الكلمات بغض النظر عن التردد

Chengyue Gong; Di He; Xu Tan; Tao Qin; Liwei Wang; Tie-Yan Liu
سؤال: تمثيل الكلمات بغض النظر عن التردد
الملخص

التمثيل الكلامي المستمر (المعروف أيضًا بـ تمثيل الكلمات) هو أحد العناصر الأساسية في العديد من النماذج القائمة على الشبكات العصبية المستخدمة في مهام معالجة اللغة الطبيعية. رغم أنه يُقبل على نطاق واسع أن الكلمات ذات الدلالات المعجمية المتشابهة يجب أن تكون قريبة من بعضها البعض في فضاء التمثيل، فقد اكتشفنا أن التمثيلات الكلامية التي يتم تعلمها في عدة مهام تكون متحيزة نحو تكرار الكلمات: تقع التمثيلات الكلامية للكلمات شديدة التكرار والكلمات قليلة التكرار في مناطق فرعية مختلفة من فضاء التمثيل، ويمكن أن يكون تمثيل كلمة نادرة بعيدًا عن تمثيل كلمة شائعة حتى لو كانتا متشابهتين دلاليًا. هذا يجعل التمثيلات الكلامية المُتعلَّمة غير فعالة، خاصة بالنسبة للكلمات النادرة، وبالتالي يحد من أداء هذه النماذج العصبية. في هذا البحث، طورنا طريقة بسيطة وأنيقة ولكنها فعالة لتعلم \emph{تمثيل الكلمات الخالي من تأثير التكرار} (FRAGE) باستخدام التدريب المعادي. أجرينا دراسات شاملة على عشرة مجموعات بيانات عبر أربع مهام لمعالجة اللغة الطبيعية، بما في ذلك تشابه الكلمات، ونمذجة اللغة، وترجمة الآلة، تصنيف النصوص. أظهرت النتائج أن استخدام FRAGE حقق أداءً أعلى من خطوط الأساس في جميع المهام.