RWKV: إعادة اختراع RNNs في العصر التحويلي

أحدثت نماذج التحويل (Transformers) ثورة في معظم مهام معالجة اللغة الطبيعية (NLP)، لكنها تعاني من تعقيدات في الذاكرة والحساب تتزايد تربيعياً مع طول التسلسل. في المقابل، تُظهر الشبكات العصبية المتكررة (RNNs) مقياساً خطيًا في متطلبات الذاكرة والحساب، لكنها تواجه صعوبات في تحقيق نفس الأداء الذي تحققه نماذج التحويل بسبب قيود التوازي والقابلية للتوسع. نقترح معمارية نموذج جديدة تُسمى "مُوزع الاستقبال الموزون للقيم المفتاحية" (Receptance Weighted Key Value - RWKV)، التي تجمع بين تدريب فعال وقابل للتوازي لنموذج التحويل، وبين استدلال فعّال لنموذج RNN.يستفيد نهجنا من آلية انتباه خطية، مما يسمح لنا بتمثيل النموذج إما كنموذج تحويل أو كنموذج متكرر، وبالتالي توازي العمليات الحسابية أثناء التدريب، مع الحفاظ على تعقيد ثابت في الحساب والذاكرة أثناء الاستدلال. وقد قمنا بتوسيع نماذجنا حتى تصل إلى 14 مليار معلمة، وهي أكبر شبكة متكررة كثيفة أُدرّبت على الإطلاق، ووجدنا أن أداء RWKV يوازي أداء نماذج التحويل المماثلة من حيث الحجم، مما يشير إلى إمكانية استغلال هذه المعمارية في المستقبل لبناء نماذج أكثر كفاءة. تمثل هذه الدراسة خطوة كبيرة نحو التوفيق بين التناقضات بين الكفاءة الحسابية والأداء النموذجي في مهام معالجة التسلسلات.