HyperAIHyperAI
منذ 11 أيام

Charformer: تحويلات حروف سريعة عبر تجزئة الرموز الفرعية القائمة على التدرج

Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler
Charformer: تحويلات حروف سريعة عبر تجزئة الرموز الفرعية القائمة على التدرج
الملخص

تعتمد النماذج الرائدة في معالجة اللغة الطبيعية على خوارزميات منفصلة وثابتة لتقطيع الوحدات الفرعية (subword tokenization)، مما يحد من قدرتها على التعميم والتكيف مع البيئات الجديدة. في هذه الورقة، نقترح تحيزًا استنتاجيًا جديدًا للنموذج يتعلم تقطيع الوحدات الفرعية بشكل متكامل (end-to-end) كجزء من النموذج نفسه. ولتحقيق ذلك، نقدم وحدة تقطيع وحدات فرعية قائمة على التدرج الناعم (GBST)، والتي تتعلم تلقائيًا تمثيلات وحدات فرعية خفية من الحروف بطريقة تعتمد على البيانات. وبشكل محدد، تقوم GBST بتحديد كتل وحدات فرعية محتملة، وتعلم تقييمها بطريقة موضعية باستخدام شبكة تقييم الكتل. بالإضافة إلى ذلك، نُقدّم نموذج Charformer، وهو نموذج عميق من نوع Transformer يدمج GBST ويعمل على مستوى البايت (byte-level). من خلال تجارب واسعة على مجموعات بيانات GLUE الإنجليزية، والنصوص متعددة اللغات، والنصوص الملوثة، نُظهر أن Charformer يتفوق على سلسلة من النماذج الأساسية التي تعمل على مستوى البايت، ويُظهر أداءً متساويًا في معظم الحالات، وأحيانًا يتفوق على النماذج القائمة على الوحدات الفرعية. علاوةً على ذلك، يتميز Charformer بالسرعة، حيث يُحسّن سرعة النماذج الأساسية التي تعمل على مستوى البايت والوحدات الفرعية بنسبة تتراوح بين 28% إلى 100%، مع الحفاظ على جودة تنافسية. نعتقد أن هذه الدراسة تُمهد الطريق أمام نماذج عالية الأداء خالية من التقطيع (token-free) والتي تُدرّب بالكامل بطريقة متكاملة (end-to-end).

Charformer: تحويلات حروف سريعة عبر تجزئة الرموز الفرعية القائمة على التدرج | أحدث الأوراق البحثية | HyperAI