SpanBERT: تحسين التدريب الأولي من خلال تمثيل وتوقع الفواصل النصية

نقدم SpanBERT، وهو طريقة تدريب مسبقة مصممة لتمثيل وتوقع فترات النص بشكل أفضل. يمتد نهجنا عن BERT من خلال (1) إخفاء فترات عشوائية متصلة بدلاً من الرموز العشوائية، و(2) تدريب تمثيل حدود الفترة على التنبؤ بمحتوى الفترة المخفية بالكامل دون الاعتماد على تمثيلات الرموز الفردية داخلها. يتفوق SpanBERT باستمرار على BERT وعلى قواعد بياناتنا الأفضل ضبطًا، مع تحقيق مكاسب كبيرة في مهام اختيار الفترات مثل الإجابة على الأسئلة وحل الإشارة المرجعية. وبشكل خاص، باستخدام نفس بيانات التدريب وحجم النموذج مثل BERT-large، يحصل نموذجنا المفرد على 94.6% و88.7% F1 في SQuAD 1.1 و2.0 على التوالي. كما حققنا أحدث مستوى رائد في مهمة حل الإشارة المرجعية OntoNotes (79.6% F1)، وأداءً قويًا في معيار استخراج العلاقات TACRED، وحتى أظهرت تحسينات في GLUE.注释:- "SpanBERT" 保留为专有名词。- "F1" 是一个常见的评估指标,直接使用阿拉伯语中的英文缩写。- "SQuAD" 和 "OntoNotes" 等数据集名称也保留为英文。- "TACRED" 和 "GLUE" 同样保留为英文缩写。