HyperAIHyperAI
منذ 17 أيام

RWKV: إعادة اختراع RNNs في العصر التحويلي

Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Jiaju Lin, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Bolun Wang, Johan S. Wind, Stanislaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu
RWKV: إعادة اختراع RNNs في العصر التحويلي
الملخص

أحدثت نماذج التحويل (Transformers) ثورة في معظم مهام معالجة اللغة الطبيعية (NLP)، لكنها تعاني من تعقيدات في الذاكرة والحساب تتزايد تربيعياً مع طول التسلسل. في المقابل، تُظهر الشبكات العصبية المتكررة (RNNs) مقياساً خطيًا في متطلبات الذاكرة والحساب، لكنها تواجه صعوبات في تحقيق نفس الأداء الذي تحققه نماذج التحويل بسبب قيود التوازي والقابلية للتوسع. نقترح معمارية نموذج جديدة تُسمى "مُوزع الاستقبال الموزون للقيم المفتاحية" (Receptance Weighted Key Value - RWKV)، التي تجمع بين تدريب فعال وقابل للتوازي لنموذج التحويل، وبين استدلال فعّال لنموذج RNN.يستفيد نهجنا من آلية انتباه خطية، مما يسمح لنا بتمثيل النموذج إما كنموذج تحويل أو كنموذج متكرر، وبالتالي توازي العمليات الحسابية أثناء التدريب، مع الحفاظ على تعقيد ثابت في الحساب والذاكرة أثناء الاستدلال. وقد قمنا بتوسيع نماذجنا حتى تصل إلى 14 مليار معلمة، وهي أكبر شبكة متكررة كثيفة أُدرّبت على الإطلاق، ووجدنا أن أداء RWKV يوازي أداء نماذج التحويل المماثلة من حيث الحجم، مما يشير إلى إمكانية استغلال هذه المعمارية في المستقبل لبناء نماذج أكثر كفاءة. تمثل هذه الدراسة خطوة كبيرة نحو التوفيق بين التناقضات بين الكفاءة الحسابية والأداء النموذجي في مهام معالجة التسلسلات.