HyperAIHyperAI
منذ 2 أشهر

CEDR: التضمينات السياقية لتصنيف الوثائق

Sean MacAvaney; Andrew Yates; Arman Cohan; Nazli Goharian
CEDR: التضمينات السياقية لتصنيف الوثائق
الملخص

رغم الاهتمام الكبير الذي حظيت به هياكل التصنيف العصبي مؤخرًا، فإن القليل نسبيًا من الاهتمام قد أُولِيَ للتمثيلات المصطلحية التي تُستخدم كمدخلات لهذه النماذج. في هذا البحث، ندرس كيفية الاستفادة من نموذجين لغويين مسبوقين بالسياق (ELMo و BERT) في تصنيف المستندات العشوائي. من خلال التجارب على مقاييس TREC، نجد أن العديد من الهياكل التصنيف العصبية الحالية يمكن أن تستفيد من السياق الإضافي الذي توفره النماذج اللغوية المسبوقة بالسياق. علاوة على ذلك، نقترح نهجًا مشتركًا يدمج متجه التصنيف الخاص بـ BERT في النماذج العصبية الحالية ويظهر أنه يتفوق على أسس تصنيف المستندات العشوائي الأكثر تقدمًا حتى الآن. نطلق على هذا النهج المشترك اسم CEDR (المضمنات السياقية لتصنيف المستندات). كما نتناول التحديات العملية في استخدام هذه النماذج للتصنيف، بما في ذلك الطول الأقصى للمدخلات المفروض بواسطة BERT والتأثيرات على الأداء الزمني للنماذج اللغوية المسبوقة بالسياق.

CEDR: التضمينات السياقية لتصنيف الوثائق | أحدث الأوراق البحثية | HyperAI