انزياح التمثيل: توحيد ضغط الرموز مع FlashAttention

أظهرت نماذج التحويل (Transformers) نجاحًا ملحوظًا في مجالات الرؤية الحاسوبية واللغة الطبيعية وفي معالجة الفيديو. ومع ذلك، فإن تزايد تعقيد المهام أدى إلى تضخم حجم النماذج وزيادة عدد الرموز (tokens)، مما رفع التكلفة التربيعية لعملية الانتباه الذاتي (self-attention) وزيادة حمل وحدات معالجة الرسوميات (GPU) في الوصول إلى الذاكرة. ولتقليل التكلفة الحسابية لعملية الانتباه الذاتي، اقترح الباحثون سابقًا تقنيات تقليل عدد الرموز (token compression) التي تُزيل الرموز الزائدة أو الأقل إفادة. وفي الوقت نفسه، تم تطوير نوى انتباه مدمجة مثل FlashAttention لتخفيف حمل الذاكرة من خلال تجنب بناء خرائط الانتباه (attention maps) والوصول المصاحب لها إلى الذاكرة عالية السرعة (HBM). لكن هذا يُعد غير متوافق مع معظم أساليب تقليل الرموز دون تدريب، التي تعتمد على خرائط الانتباه لتحديد أهمية كل رمز.في هذا العمل، نقترح "انزياح التمثيل" (Representation Shift)، وهي مقياس مجاني من التدريب، وعام بالنسبة للنماذج، يقيس درجة التغير في تمثيل كل رمز. يتكامل هذا المقياس بسلاسة مع FlashAttention دون الحاجة إلى خرائط الانتباه أو إعادة التدريب. كما أن طريقة العمل هذه تُعمّم إلى خوارزميات أخرى غير Transformers، مثل الشبكات العصبية التلافيفية (CNNs) ونماذج الفضاء الحالة (state space models). أظهرت التجارب الواسعة أن "انزياح التمثيل" يُمكّن من تقليل الرموز بكفاءة، مع التوافق مع FlashAttention، مما يحقق تسارعًا ملحوظًا يصل إلى 5.5% في مهام استرجاع النص-الفيديو، و4.4% في مهام التساؤل حول الفيديو. يمكن الاطلاع على الكود عبر الرابط: https://github.com/mlvlab/Representation-Shift.