HyperAIHyperAI

Command Palette

Search for a command to run...

ByT5: نحو مستقبل بدون رموز باستخدام نماذج التدريب المسبق من بايت إلى بايت

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

الملخص

معظم النماذج اللغوية المدربة مسبقًا تعمل على تسلسلات من الرموز التي تعبر عن وحدات الكلمات أو الوحدات الفرعية للكلمات. بالمقارنة مع ذلك، فإن النماذج الخالية من الرموز والتي تعمل مباشرة على النص الخام (البايتات أو الأحرف) لديها العديد من المزايا: فهي قادرة على معالجة النصوص بلغات مختلفة دون الحاجة إلى أي إعداد مسبق، وهي أكثر مقاومة للضوضاء، وتقلل من الديون التقنية بإزالة خطوط المعالجة الأولية المعقدة والقابلة للأخطاء. نظرًا لأن تسلسلات البايتات أو الأحرف أطول من تسلسلات الرموز، فقد غالباً ما قدمت الأعمال السابقة في مجال النماذج الخالية من الرموز هياكل نموذج جديدة مصممة لتوزيع تكلفة العمل مباشرة على النص الخام. في هذا البحث، نوضح أن يمكن استخدام هيكل الترانسفورمر القياسي بتعديلات طفيفة لمعالجة تسلسلات البايتات. نحدد التنازلات فيما يتعلق بعدد المعلميات، وعمليات التعويم خلال التدريب (FLOPs)، وسرعة الاستدلال، ونظهر أن النماذج المستندة إلى مستوى البايت تنافسية مع نظيراتها المستندة إلى مستوى الرمز. كما نثبت أن النماذج المستندة إلى مستوى البايت أكثر مقاومة بكثير للضوضاء وأداء أفضل في المهام الحساسة للإملاء والنطق. كجزء من مساهمتنا، نقوم بإصدار مجموعة جديدة من النماذج المدربة مسبقًا للتранسفورمر المستند إلى مستوى البايت والمبنية على هيكل T5 (T5 architecture)، بالإضافة إلى جميع الكود والبيانات المستخدمة في تجاربنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp