HyperAIHyperAI

Command Palette

Search for a command to run...

توليد سلاسل طويلة باستخدام المتحولات النادرة

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever

الملخص

الشبكات العصبية المتغيرة (Transformers) هي نماذج متسلسلة قوية، ولكنها تتطلب وقتًا وذاكرة يزدادان بشكل تربيعي مع طول التسلسل. في هذا البحث، نقدم عوامل تحليل نادر للMATRIX الانتباه التي تقلل من هذا إلى O(n√n). كما نقدم: أ) تباينًا في الهندسة والتهيئة لتدريب شبكات أعمق، ب) إعادة حساب MATRICES الانتباه لتوفير الذاكرة، وج) نواة انتباه سريعة للتدريب. نطلق على الشبكات التي تحتوي على هذه التغييرات اسم الشبكات العصبية النادرة (Sparse Transformers)، ونظهر أنها قادرة على مودلة تسلسلات يصل طولها إلى عشرات الآلاف من الخطوات الزمنية باستخدام مئات الطبقات. نستخدم نفس الهندسة لنمذجة الصور والصوت والنص من البايتات الخام، مما يحدد مستوى جديدًا للمعايير في نمذجة الكثافة لـ Enwik8 وCIFAR-10 وImageNet-64. نولد عينات غير مشروطة تظهر تماسكًا عالميًا وتعددًا كبيرًا، ونوضح أنه من الممكن في المبدأ استخدام الانتباه الذاتي لنمذجة تسلسلات يصل طولها إلى مليون خطوة زمنية أو أكثر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp