Reformer: المرشح الفعّال للتحويلة

تحقيق النماذج الكبيرة من المحولات (Transformers) نتائج متقدمة في العديد من المهام، لكن تدريب هذه النماذج يمكن أن يكون مكلفًا جدًا، خاصة عند التعامل مع التسلسلات الطويلة. نقدم تقنيتين لتحسين كفاءة المحولات. أولاً، نستبدل الانتباه المبني على الضرب النقطي بانتباه يستخدم تجزئة الحساسية للمكان (Locality-Sensitive Hashing)، مما يُغيّر التعقيد من O($L^2$) إلى O($L\log L$)، حيث $L$ تمثل طول التسلسل. ثانياً، نستخدم طبقات التجزئة العكسية (reversible residual layers) بدلًا من الطبقات القياسية، مما يسمح بتخزين القيم المُخرجة (النواتج) مرة واحدة فقط خلال عملية التدريب، بدلًا من $N$ مرات، حيث $N$ هو عدد الطبقات. الناتج هو نموذج يُسمى Reformer، الذي يُحقق أداءً مماثلًا لنماذج المحولات التقليدية، مع كفاءة أكبر في استخدام الذاكرة، وأسرع بشكل ملحوظ عند التعامل مع التسلسلات الطويلة.