CharacterBERT: المصالحة بين ELMo و BERT لتمثيلات مفتوحة المفردات على مستوى الكلمة من الحروف

بسبب التحسينات المقنعة التي أتاحتها BERT، اعتمدت العديد من نماذج التمثيل الحديثة معمارية Transformer ككتلة بنائية رئيسية لها، مما أدى إلى وراثتها لنظام تجزئة الكلمات إلى أجزاء (wordpiece tokenization) رغم عدم وجود علاقة جوهرية بين هذا النظام ومفهوم Transformers. بينما يُعتقد أن هذا النظام يحقق توازنًا جيدًا بين مرونة الحروف وكفاءة الكلمات الكاملة، فإن استخدام قواميس wordpiece المحددة مسبقًا من المجال العام ليس دائمًا مناسبًا، خاصة عند بناء نماذج للمجالات المتخصصة (مثل المجال الطبي). بالإضافة إلى ذلك، فإن اعتماد نظام تجزئة الكلمات إلى أجزاء يحول التركيز من مستوى الكلمة إلى مستوى الأجزاء الفرعية للكلمة، مما يجعل النماذج معقدة بشكل مفاهيمي وأقل راحة في التطبيق. ولهذه الأسباب، نقترح CharacterBERT، وهي نسخة جديدة من BERT تتخلص تمامًا من نظام wordpiece وتستخدم بدلاً منه وحدة Character-CNN لتمثيل الكلمات بأكملها عن طريق الرجوع إلى حروفها. نوضح أن هذا النموذج الجديد يحسن أداء BERT في مجموعة متنوعة من المهام في المجال الطبي وفي الوقت نفسه ينتج تمثيلات متينة على مستوى الكلمة وقواميس مفتوحة.