HyperAIHyperAI
منذ 20 أيام

هل يمكن استخدام نموذج لغوي مُدرّب مسبقًا مجمّد لاسترجاع عصبي صفر-العينة على أسئلة تتمحور حول الكيانات؟

Yasuto Hoshi, Daisuke Miyashita, Yasuhiro Morioka, Youyang Ng, Osamu Torii, Jun Deguchi
هل يمكن استخدام نموذج لغوي مُدرّب مسبقًا مجمّد لاسترجاع عصبي صفر-العينة على أسئلة تتمحور حول الكيانات؟
الملخص

أظهرت نماذج استرجاع المستندات العصبية، بما في ذلك استرجاع الفقرات الكثيفة (DPR)، تفوقها على نماذج الاسترجاع التقليدية القائمة على المطابقة النحوية مثل BM25 عند تدريبها واختبارها على مجموعات بيانات محددة للإجابة على الأسئلة. ومع ذلك، أُظهر أن النماذج الكثيفة الحالية لا تُظهر أداءً عامًا جيدًا ليس فقط خارج المجال، بل وحتى داخله، مثل ويكيبيديا، خصوصًا عندما يكون اسم الكيان المذكور في السؤال هو المؤشر الرئيسي لعملية الاسترجاع. في هذه الورقة، نقترح نهجًا يهدف إلى تحسين التعميم داخل المجال باستخدام التضمينات (embeddings) الناتجة عن نموذج لغوي مجمّد تم تدريبه باستخدام الكيانات الموجودة داخل المجال. وبعدم إجراء التدريب الدقيق (fine-tuning)، نستكشف إمكانية استخدام المعرفة الغنية المحتوية في النموذج اللغوي المُدرّب مسبقًا في مهام الاسترجاع. تتفوق الطريقة المقترحة على النماذج التقليدية من نوع DPR في حالات الأسئلة المركزية حول الكيانات داخل مجال ويكيبيديا، وتحقق أداءً قريبًا جدًا من أداء BM25 والنماذج الحديثة مثل نموذج SPAR. كما نُظهر أن استخدام المفاتيح المُحاطة بالسياق يؤدي إلى تحسينات كبيرة مقارنة بـ BM25 عندما تكون أسماء الكيانات مكوّنة من كلمات شائعة. تُظهر نتائجنا إمكانية تطبيق منهج الاسترجاع الصفري (zero-shot) في حالات الأسئلة المركزية حول الكيانات داخل مجال ويكيبيديا، حيث واجهت نماذج DPR صعوبات في الأداء.

هل يمكن استخدام نموذج لغوي مُدرّب مسبقًا مجمّد لاسترجاع عصبي صفر-العينة على أسئلة تتمحور حول الكيانات؟ | الأوراق البحثية | HyperAI