HyperAIHyperAI

Command Palette

Search for a command to run...

RWKV: إعادة اختراع RNNs في العصر التحويلي

الملخص

أحدثت نماذج التحويل (Transformers) ثورة في معظم مهام معالجة اللغة الطبيعية (NLP)، لكنها تعاني من تعقيدات في الذاكرة والحساب تتزايد تربيعياً مع طول التسلسل. في المقابل، تُظهر الشبكات العصبية المتكررة (RNNs) مقياساً خطيًا في متطلبات الذاكرة والحساب، لكنها تواجه صعوبات في تحقيق نفس الأداء الذي تحققه نماذج التحويل بسبب قيود التوازي والقابلية للتوسع. نقترح معمارية نموذج جديدة تُسمى "مُوزع الاستقبال الموزون للقيم المفتاحية" (Receptance Weighted Key Value - RWKV)، التي تجمع بين تدريب فعال وقابل للتوازي لنموذج التحويل، وبين استدلال فعّال لنموذج RNN.يستفيد نهجنا من آلية انتباه خطية، مما يسمح لنا بتمثيل النموذج إما كنموذج تحويل أو كنموذج متكرر، وبالتالي توازي العمليات الحسابية أثناء التدريب، مع الحفاظ على تعقيد ثابت في الحساب والذاكرة أثناء الاستدلال. وقد قمنا بتوسيع نماذجنا حتى تصل إلى 14 مليار معلمة، وهي أكبر شبكة متكررة كثيفة أُدرّبت على الإطلاق، ووجدنا أن أداء RWKV يوازي أداء نماذج التحويل المماثلة من حيث الحجم، مما يشير إلى إمكانية استغلال هذه المعمارية في المستقبل لبناء نماذج أكثر كفاءة. تمثل هذه الدراسة خطوة كبيرة نحو التوفيق بين التناقضات بين الكفاءة الحسابية والأداء النموذجي في مهام معالجة التسلسلات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp