RLAS-BIABC: اختيار إجابة مبني على التعلم بالتعزيز باستخدام نموذج BERT مُحسَّن بواسطة خوارزمية ABC المُطوَّرة

يُعد اختيار الإجابة (AS) مهمة فرعية حاسمة ضمن مشكلة الإجابة على الأسئلة في البيئة المفتوحة (QA). يقترح هذا البحث طريقة تُسمى RLAS-BIABC لاختيار الإجابة، والتي تُبنى على آلية الانتباه المُعتمدة على الشبكة العصبية ذات الذاكرة الطويلة القصيرة (LSTM) وتمثيل الكلمات من نموذج BERT المستند إلى مُشفّر ثنائي الاتجاه من التحويلات (BERT)، مع تحسين النموذج من خلال خوارزمية نحل صناعية مُحسَّنة (ABC) لمرحلة التدريب المسبق، وخوارزمية تعتمد على التعلم بالتحفيز (Reinforcement Learning) لتدريب خوارزمية الانتشار العكسي (BP). يمكن دمج BERT في المهام اللاحقة وتحسينه كهيكل مُوحَّد مخصص للوظيفة، كما يمكن للنموذج المُدرَّب مسبقًا على BERT استخلاص تأثيرات لغوية مختلفة. في الأنظمة الحالية، يُدرَّب نموذج اختيار الإجابة عادةً باستخدام أزواج إيجابية-سلبية لتصنيف ثنائي الفئة. حيث يحتوي الزوج الإيجابي على سؤال وإجابة حقيقية، بينما يحتوي الزوج السلبي على سؤال وإجابة مُزيفة. ويجب أن يكون المخرج 1 للزوج الإيجابي، و0 للزوج السلبي. وبشكل عام، يكون عدد الأزواج السلبية أكبر بكثير من الأزواج الإيجابية، مما يؤدي إلى توازن غير متساوٍ في التصنيف، ويُقلل بشكل كبير من أداء النظام. لمعالجة هذه المشكلة، نُعرّف عملية التصنيف كعملية اتخاذ قرارات متسلسلة، حيث يأخذ العامل عينة في كل خطوة ويصنفها. وفي كل عملية تصنيف، يتلقى العامل مكافأة، بحيث تكون مكافأة الفئة الغالبة أقل من مكافأة الفئة النادرة. في النهاية، يُحدِّد العامل القيمة المثلى لمعاملات السياسة. ونُبدأ بتهيئة معاملات السياسة باستخدام خوارزمية ABC المُحسَّنة، حيث يُسهم هذا الأسلوب في تجنُّب مشاكل مثل العُلْق في القيم المحلية القصوى. وعلى الرغم من أن خوارزمية ABC تعمل بكفاءة في معظم المهام، إلا أنها لا تزال تعاني من عيب متمثل في إهمالها لقيمة التكيف (fitness) للأزواج ذات الصلة بين الأفراد عند اكتشاف موقع مصدر طعام مجاور.