SPECTER: التعلم التمثيلي على مستوى المستند باستخدام محولات مُوجَّهة بالاقتباسات

إن تعلم التمثيل يُعد عنصراً أساسياً في أنظمة معالجة اللغة الطبيعية. تتعلم نماذج لغة المُحَوِّل (Transformer) الحديثة مثل BERT تمثيلات نصية قوية، لكن هذه النماذج مصممة خصيصاً لمهام تدريب على مستوى الرموز (tokens) والجمل، ولا تستخدم المعلومات المتعلقة بالعلاقة بين الوثائق، مما يحد من قدرتها على تمثيل الوثائق على مستوى أعلى. بالنسبة للتطبيقات على الوثائق العلمية، مثل التصنيف والتوصية، تُظهر التمثيلات (الإندبدينغ) أداءً ممتازاً في المهام النهائية. نقترح SPECTER، طريقة جديدة لاستخلاص تمثيلات وثائقية على مستوى الوثيقة، وذلك من خلال تدريب مُحَوِّل لغة مُدرَّب مسبقاً على إشارة قوية للعلاقة بين الوثائق: رسم بياني للإشارات (الاقتباسات). على عكس النماذج المُدرَّبة مسبقاً الحالية، يمكن تطبيق SPECTER بسهولة على التطبيقات التالية دون الحاجة إلى التدريب الدقيق المخصص للمهمة. بالإضافة إلى ذلك، ولتشجيع الأبحاث المستقبلية في مجال النماذج على مستوى الوثيقة، نقدّم SciDocs، وهو معيار تقييم جديد يتكوّن من سبعة مهام على مستوى الوثيقة، تتراوح بين توقع الاقتباسات، وتصنيف الوثائق والتوصية. ونُظهر أن SPECTER يتفوّق على مجموعة متنوعة من النماذج التنافسية على هذا المعيار.