التعلم من العلامات الضوضائية لاستخراج المعلومات المركزية حول الكيانات

اعتمدت الطرق الحديثة لاستخراج المعلومات على تدريب نماذج عصبية عميقة. ومع ذلك، يمكن لهذه النماذج أن تتعرض بسهولة لظاهرة التكيف الزائد مع العلامات الضوضائية، مما يؤدي إلى تدهور في الأداء. وعلى الرغم من أن تنقية العلامات الضوضائية في مصادر التعلم الكبيرة أمر مكلف للغاية، إلا أن الدراسات الحديثة أظهرت أن هذه العلامات تستغرق عددًا أكبر من خطوات التدريب لتُخزن في الذاكرة، كما أنها تُنسى بشكل أكثر تكرارًا مقارنة بالعلامات النظيفة، وبالتالي يمكن تحديدها أثناء عملية التدريب. مستوحى من هذه الخصائص، نقترح إطارًا بسيطًا للتنظيم التعاوني لاستخراج المعلومات المتمحورة حول الكيانات، يتكون من عدة نماذج عصبية ذات هياكل متماثلة ولكن بمعالم أولية مختلفة. يتم تحسين هذه النماذج معًا باستخدام خسائر مخصصة للمهمة، مع تطبيق تنظيم يُشجعها على إنتاج تنبؤات متشابهة بناءً على خسارة التوافق، مما يمنع التكيف الزائد مع العلامات الضوضائية. أظهرت تجارب واسعة النطاق على معياريْن شائعي الاستخدام لكنهما يحتويان على ضوضاء في استخراج المعلومات، وهما TACRED وCoNLL03، فعالية الإطار المقترح. ونُعلن عن إتاحة كودنا للمجتمع لدعم الأبحاث المستقبلية.