PARADE: تمثيل التجميع للعبور لإعادة ترتيب الوثيقة

النماذج المتحولة المدربة مسبقًا، مثل BERT و T5، أثبتت فعاليتها العالية في تصنيف المقاطع والمستندات بشكل عشوائي. نظرًا لقيود الطول المتأصلة في هذه النماذج، يجب تشغيلها على مقاطع المستند بدلاً من معالجة تسلسل المستند بأكمله دفعة واحدة. رغم اقتراح العديد من الأساليب لتجميع إشارات المستوى الفرعي للمقاطع، لم يتم حتى الآن إجراء مقارنة شاملة لهذه التقنيات. في هذا البحث، نستكشف استراتيجيات لتجميع إشارات الصلة من مقاطع المستند إلى درجة تصنيف نهائية. وجدنا أن تقنيات تجميع تمثيل المقاطع يمكن أن تحسن بشكل كبير على التقنيات المقترحة سابقًا، مثل أخذ أعلى درجة للمقطع. نطلق على هذا النهج الجديد اسم PARADE (تجمع). بصفة خاصة، يمكن لـ PARADE أن يحسن بشكل كبير النتائج في المجموعات التي تحتوي على احتياجات معلوماتية واسعة حيث يمكن أن تكون إشارات الصلة موزعة عبر المستند (مثل TREC Robust04 و GOV2). بينما قد تعمل تقنيات التجميع الأقل تعقيدًا بشكل أفضل في المجموعات التي يمكن تحديد احتياجاتها المعلوماتية غالبًا إلى مقطع واحد (مثل TREC DL و TREC Genomics). كما أجرينا تحليلات للكفاءة وأبرزنا عدة استراتيجيات لتحسين التجميع القائم على النماذج المتحولة.