منذ 11 أيام

مختبر المسافة الطويلة: معيار لمحولات فعالة

Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler

عرض تفاصيل الورقة البحثية

مختبر المسافة الطويلة: معيار لمحولات فعالة

الملخص

لا تُ-scalable بشكل جيد النماذج القائمة على Transformers إلى طول تسلسلات طويلة إلى حد كبير بسبب التعقيد التربيعي للانتباه الذاتي. في الأشهر الأخيرة، تم اقتراح طيف واسع من نماذج Transformers الفعالة والسريعة لمعالجة هذه المشكلة، وغالبًا ما تدّعي هذه النماذج جودة نموذجية تفوق أو تُقاس بجودة نماذج Transformers التقليدية. حتى تاريخه، لا يوجد اتفاق مُعتمد بشكل جيد حول كيفية تقييم هذه الفئة من النماذج. علاوةً على ذلك، فإن المعايير غير المتسقة التي تُطبَّق على طيف واسع من المهام والبيانات تجعل من الصعب تقييم الجودة النسبية بين العديد من النماذج. تُقدّم هذه الورقة معيارًا منهجيًا وموحدًا، يُسمى LRA، مُخصصًا لتقييم جودة النموذج في السياقات الطويلة. يتكوّن معيارنا من مجموعة مهام تتضمّن تسلسلات تتراوح بين 1K و16K من الرموز (tokens)، ويشمل طيفًا واسعًا من أنواع البيانات والصيغ مثل النصوص، والصور الطبيعية والاصطناعية، والتعبيرات الرياضية التي تتطلب التفكير في التشابه والبنية والتحليل المكاني البصري. قمنا بتقييم منهجي لعشرة نماذج معروفة من Transformers ذات مدى طويل (Reformers، Linformers، Transformers خطيّة، Transformers Sinkhorn، Performers، Synthesizers، Transformers نادرة التماسك، وLongformers) على مجموعة المعايير المقترحة حديثًا. يُمكّن معيار LRA من فهم أفضل لهذه الفئة من نماذج Transformers الفعّالة، ويشجّع على بحوث أكثر في هذا الاتجاه، ويقدّم مهامًا جديدة صعبة التحدي. سيتم إتاحة رمز المعيار الخاص بنا على الرابط: https://github.com/google-research/long-range-arena.