HyperAIHyperAI
منذ 2 أشهر

DocBERT: BERT لتصنيف الوثائق

Ashutosh Adhikari; Achyudh Ram; Raphael Tang; Jimmy Lin
DocBERT: BERT لتصنيف الوثائق
الملخص

نقدم، حسب علمنا، أول تطبيق لنموذج BERT في تصنيف الوثائق. قد تؤدي بعض خصائص هذه المهمة إلى الاعتقاد بأن BERT ليس النموذج الأكثر ملاءمة: فهياكل الجملة تكون أقل أهمية للتصنيفات المحتوية، ويمكن أن تكون الوثائق أطول من المدخلات النموذجية لـ BERT، كما يمكن أن تحتوي الوثائق على العديد من العلامات. ومع ذلك، نوضح أن نموذج التصنيف المباشر باستخدام BERT قادر على تحقيق أفضل الأداء في أربعة قواعد بيانات شائعة. لمعالجة التكاليف الحسابية المرتبطة باستدلال BERT، نقوم بتكثيف المعرفة من BERT-large إلى LSTM ثنائية الاتجاه صغيرة الحجم، مما يتيح لنا الوصول إلى مستوى أداء مماثل لـ BERT-base باستخدام 30 ضعفًا أقل من المعاملات. الإسهام الرئيسي لبحثنا هو توفير خطوط أساس محسنة يمكن أن تشكل الأساس للبحوث المستقبلية.

DocBERT: BERT لتصنيف الوثائق | أحدث الأوراق البحثية | HyperAI