Flowformer: تقويم التحولات باستخدام التدفقات الحفاظية

حَظِيَتْ النماذج القائمة على آلية الانتباه (Transformers) بنجاح كبير في مجالات متنوعة. ومع ذلك، فإن آلية الانتباه تتميز بتعقيد تربيعي، مما يعيق بشكل كبير قدرة نماذج Transformers على التعامل مع عدد كبير من الرموز (tokens) أو التوسع نحو نماذج أكبر. اعتمدت الطرق السابقة في المقام الأول على تحليل التشابه وخاصية الترابط في الضرب المصفوفي لتصميم آليات انتباه بزمن خطي. ورغم أن هذه الطرق تتجنب التدهور في الانتباه إلى توزيع بسيط من خلال إعادة إدخال افتراضات استدلالية مثل المحلية (locality)، إلا أنها تأتي على حساب تعميم النموذج وتعبيره. في هذه الورقة، نُبَيّتُ نماذج Transformers بزمن خطي دون الاعتماد على افتراضات استدلالية محددة، وذلك باستخدام نظرية الشبكات الجارية (flow network theory). نُصِفُ الانتباه كتدفق معلومات يتم جمعه من المصادر (القيم) إلى المستهلكين (النتائج) عبر سعة تدفق مُعلَّمة (الانتباه). ضمن هذا الإطار، نطبّق خاصية حفظ التدفق في آلية الانتباه ونُقدِّم آلية تُسمَّى Flow-Attention ذات تعقيد خطي. وباستخدام حفظ التدفق الوارد للمستهلكين لتنافس المصادر، وحفظ التدفق الصادر من المصادر لتخصيص المستهلكين، تُولِّد Flow-Attention تلقائيًا انتباهًا مفيدًا دون الحاجة إلى افتراضات استدلالية محددة. وباستخدام آلية Flow-Attention، تُظهر النموذج Flowformer أداءً قويًا بزمن خطي في مجالات واسعة، تشمل التسلسلات الطويلة، السلاسل الزمنية، الرؤية الحاسوبية، اللغة الطبيعية، والتعلم التكاملي. يمكن الوصول إلى الكود والإعدادات من خلال هذا المستودع: https://github.com/thuml/Flowformer.