منذ 2 أشهر
DocBERT: BERT لتصنيف الوثائق
Ashutosh Adhikari; Achyudh Ram; Raphael Tang; Jimmy Lin

الملخص
نقدم، حسب علمنا، أول تطبيق لنموذج BERT في تصنيف الوثائق. قد تؤدي بعض خصائص هذه المهمة إلى الاعتقاد بأن BERT ليس النموذج الأكثر ملاءمة: فهياكل الجملة تكون أقل أهمية للتصنيفات المحتوية، ويمكن أن تكون الوثائق أطول من المدخلات النموذجية لـ BERT، كما يمكن أن تحتوي الوثائق على العديد من العلامات. ومع ذلك، نوضح أن نموذج التصنيف المباشر باستخدام BERT قادر على تحقيق أفضل الأداء في أربعة قواعد بيانات شائعة. لمعالجة التكاليف الحسابية المرتبطة باستدلال BERT، نقوم بتكثيف المعرفة من BERT-large إلى LSTM ثنائية الاتجاه صغيرة الحجم، مما يتيح لنا الوصول إلى مستوى أداء مماثل لـ BERT-base باستخدام 30 ضعفًا أقل من المعاملات. الإسهام الرئيسي لبحثنا هو توفير خطوط أساس محسنة يمكن أن تشكل الأساس للبحوث المستقبلية.