تصنيف الوثائق باستخدام نموذج تسلسل إلى تسلسل مُدرب مسبقًا

يقترح هذا العمل تكييفًا جديدًا لنموذج مُدرب مسبقًا للتحويل من تسلسل إلى تسلسل (sequence-to-sequence) لمهمة تصنيف الوثائق. نهجنا يختلف جوهريًا عن الصياغة القائمة على التصنيف التي يتم اعتمادها بشكل شائع، والتي تعتمد على هياكل النماذج المُدربة مسبقًا التي تعتمد فقط على الكودر مثل BERT. نوضح كيف يمكن تدريب نموذج التحويل من تسلسل إلى تسلسل لتوليد علامات الصلة كـ "كلمات الهدف"، وكيف يمكن تفسير القيم اللوغاريتمية لهذه الكلمات الهدف كاحتمالات صلة لغرض التصنيف. في مهمة تصنيف المقاطع الشهيرة MS MARCO، أظهرت النتائج التجريبية أن نهجنا على الأقل مكافئ للنماذج القائمة على التصنيف السابقة ويمكنه تجاوزها باستخدام نماذج أكبر وأحدث. في مجموعة الاختبار من المسار TREC 2004 Robust، نثبت قدرة نهجنا القائم على النقل بدون بيانات (zero-shot transfer) على تحقيق أداء أفضل من النماذج الرائدة سابقًا التي تتطلب التحقق المتقاطع داخل المجموعة البيانات. بالإضافة إلى ذلك، وجدنا أن نهجنا يتفوق بشكل كبير على النموذج القائم فقط على الكودر في نظام فقير بالبيانات (أي مع أمثلة قليلة للتدريب). قمنا بفحص هذه الملاحظة بشكل أعمق من خلال تغيير كلمات الهدف لاستكشاف استخدام النموذج للمعرفة الكامنة.