HyperAIHyperAI

Command Palette

Search for a command to run...

CharacterBERT: المصالحة بين ELMo و BERT لتمثيلات مفتوحة المفردات على مستوى الكلمة من الحروف

Hicham El Boukkouri Olivier Ferret Thomas Lavergne Hiroshi Noji Pierre Zweigenbaum Junichi Tsujii

الملخص

بسبب التحسينات المقنعة التي أتاحتها BERT، اعتمدت العديد من نماذج التمثيل الحديثة معمارية Transformer ككتلة بنائية رئيسية لها، مما أدى إلى وراثتها لنظام تجزئة الكلمات إلى أجزاء (wordpiece tokenization) رغم عدم وجود علاقة جوهرية بين هذا النظام ومفهوم Transformers. بينما يُعتقد أن هذا النظام يحقق توازنًا جيدًا بين مرونة الحروف وكفاءة الكلمات الكاملة، فإن استخدام قواميس wordpiece المحددة مسبقًا من المجال العام ليس دائمًا مناسبًا، خاصة عند بناء نماذج للمجالات المتخصصة (مثل المجال الطبي). بالإضافة إلى ذلك، فإن اعتماد نظام تجزئة الكلمات إلى أجزاء يحول التركيز من مستوى الكلمة إلى مستوى الأجزاء الفرعية للكلمة، مما يجعل النماذج معقدة بشكل مفاهيمي وأقل راحة في التطبيق. ولهذه الأسباب، نقترح CharacterBERT، وهي نسخة جديدة من BERT تتخلص تمامًا من نظام wordpiece وتستخدم بدلاً منه وحدة Character-CNN لتمثيل الكلمات بأكملها عن طريق الرجوع إلى حروفها. نوضح أن هذا النموذج الجديد يحسن أداء BERT في مجموعة متنوعة من المهام في المجال الطبي وفي الوقت نفسه ينتج تمثيلات متينة على مستوى الكلمة وقواميس مفتوحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp