منذ 2 أشهر

ByT5: نحو مستقبل بدون رموز باستخدام نماذج التدريب المسبق من بايت إلى بايت

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

الملخص

معظم النماذج اللغوية المدربة مسبقًا تعمل على تسلسلات من الرموز التي تعبر عن وحدات الكلمات أو الوحدات الفرعية للكلمات. بالمقارنة مع ذلك، فإن النماذج الخالية من الرموز والتي تعمل مباشرة على النص الخام (البايتات أو الأحرف) لديها العديد من المزايا: فهي قادرة على معالجة النصوص بلغات مختلفة دون الحاجة إلى أي إعداد مسبق، وهي أكثر مقاومة للضوضاء، وتقلل من الديون التقنية بإزالة خطوط المعالجة الأولية المعقدة والقابلة للأخطاء. نظرًا لأن تسلسلات البايتات أو الأحرف أطول من تسلسلات الرموز، فقد غالباً ما قدمت الأعمال السابقة في مجال النماذج الخالية من الرموز هياكل نموذج جديدة مصممة لتوزيع تكلفة العمل مباشرة على النص الخام. في هذا البحث، نوضح أن يمكن استخدام هيكل الترانسفورمر القياسي بتعديلات طفيفة لمعالجة تسلسلات البايتات. نحدد التنازلات فيما يتعلق بعدد المعلميات، وعمليات التعويم خلال التدريب (FLOPs)، وسرعة الاستدلال، ونظهر أن النماذج المستندة إلى مستوى البايت تنافسية مع نظيراتها المستندة إلى مستوى الرمز. كما نثبت أن النماذج المستندة إلى مستوى البايت أكثر مقاومة بكثير للضوضاء وأداء أفضل في المهام الحساسة للإملاء والنطق. كجزء من مساهمتنا، نقوم بإصدار مجموعة جديدة من النماذج المدربة مسبقًا للتранسفورمر المستند إلى مستوى البايت والمبنية على هيكل T5 (T5 architecture)، بالإضافة إلى جميع الكود والبيانات المستخدمة في تجاربنا.