HyperAIHyperAI

Command Palette

Search for a command to run...

DiffRate: معدل الضغط القابل للمفاضلة لتحسين متحولات الرؤية بفعالية

Mengzhao Chen Wenqi Shao Peng Xu Mingbao Lin Kaipeng Zhang Fei Chao Rongrong Ji Yu Qiao Ping Luo

الملخص

يهدف ضغط الرموز (Token Compression) إلى تسريع متحولات الرؤية على نطاق واسع (مثل ViTs) من خلال تقليم (إسقاط) أو دمج الرموز. وهو مهمة مهمة ولكنها صعبة. رغم أن الأساليب المتقدمة الحديثة حققت نجاحًا كبيرًا، فإنها تحتاج إلى تصميم بعناية معدل الضغط (أي عدد الرموز التي سيتم إزالتها)، وهو أمر مرهق يؤدي إلى أداء غير مثالي. لحل هذه المشكلة، نقترح معدل الضغط القابل للمفاضلة (Differentiable Compression Rate - DiffRate)، وهو طريقة جديدة لضغط الرموز تتمتع بعدة خصائص جذابة لم تكن موجودة في الأعمال السابقة. أولاً، يتيح DiffRate نقل تدرج دالة الخسارة إلى نسبة الضغط، والتي كانت تعتبر سابقاً كمتغير فائق غير قابل للمفاضلة. في هذه الحالة، يمكن للطبقات المختلفة التعلم بشكل آلي لمعدلات ضغط مختلفة لكل طبقة دون أي تكلفة إضافية. ثانياً، يمكن تنفيذ تقليم ودمج الرموز بشكل طبيعي وبالموازاة في DiffRate، بينما كانت هذه العمليات منفصلة في الأعمال السابقة. ثالثاً، أظهرت التجارب الواسعة أن DiffRate يحقق أداءً رائدًا على مستوى العالم. على سبيل المثال، من خلال تطبيق معدلات الضغط التي تم تعلمها لكل طبقة على نموذج ViT-H (MAE) جاهز للاستخدام، حققنا تخفيض بنسبة 40% في عمليات العوميات الطيفية (FLOPs) وتحسين بنسبة 1.5 مرة في السرعة مع انخفاض طفيف في الدقة بنسبة 0.16% على مجموعة بيانات ImageNet دون إعادة التدريب الدقيق، وحتى تفوقنا على الأساليب السابقة التي استخدمت إعادة التدريب الدقيق. يمكن الحصول على الأكواد والنماذج من https://github.com/OpenGVLab/DiffRate.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp