HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

التحفيز اللغوي التلقائي: ما وراء الندرة في محولات التشتت من خلال الانتباه الخطي النادر القابل للضبط الدقيق

التحفيز اللغوي التلقائي: ما وراء الندرة في محولات التشتت من خلال الانتباه الخطي النادر القابل للضبط الدقيق

الملخص

في نماذج المحوّل التبادلي (DiT)، وخاصةً في توليد الفيديو، يُعدّ تأخير الانتباه (attention latency) عقبة رئيسية ناتجة عن طول تسلسل البيانات وتعقيد الطرح التربيعي. وجدنا أن أوزان الانتباه يمكن تقسيمها إلى جزأين: جزء صغير من الأوزان الكبيرة ذات الرتبة العالية، والجزء المتبقي من الأوزان ذات الرتبة المنخفضة جدًا. ويُشير هذا التFinding بشكل طبيعي إلى تطبيق التسارع النادر (sparse acceleration) على الجزء الأول، والتّسارع ذي الرتبة المنخفضة (low-rank acceleration) على الجزء الثاني. استنادًا إلى هذا الاكتشاف، نقترح طريقة انتباه قابلة للتدريب تُسمى SLA (Sparse-Linear Attention)، التي تدمج بين الانتباه النادر والانتباه الخطي لتسريع نماذج التبادل. تصنف SLA أوزان الانتباه إلى ثلاث فئات: حاسمة، هامّة، ومتناهية الصغر، حيث تُطبّق الانتباه من الدرجة O(N²) على الأوزان الحاسمة، والانتباه من الدرجة O(N) على الأوزان الهامّة، وتُخطَّى الأوزان المتواضعة تمامًا. وتُدمج SLA هذه العمليات الحسابية في نواة واحدة على وحدة معالجة الرسوميات (GPU)، وتدعم كلًا من المرور الأمامي (forward pass) والمرور العكسي (backward pass). وباستخدام عدد قليل من خطوات التدقيق الدقيق (fine-tuning) مع SLA، تحقق نماذج DiT تخفيضًا بنسبة 20 مرة في حسابات الانتباه، مما يؤدي إلى تسريع كبير دون فقدان جودة التوليد. تُظهر التجارب أن SLA تقلل من حسابات الانتباه بنسبة 95% دون تدهور في جودة التوليد النهائية، وتتفوّق على الطرق الأساسية (baseline methods). بالإضافة إلى ذلك، قمنا بتنفيذ نواة GPU فعّالة لـ SLA، والتي حققت تسريعًا بنسبة 13.7 مرة في حسابات الانتباه، وتسريعًا بنسبة 2.2 مرة في التوليد النهائي للفيديو على نموذج Wan2.1-1.3B.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحفيز اللغوي التلقائي: ما وراء الندرة في محولات التشتت من خلال الانتباه الخطي النادر القابل للضبط الدقيق | الأوراق البحثية | HyperAI