HyperAIHyperAI

Command Palette

Search for a command to run...

IA-RED2^22: تقليل الأهمية مع الوعي بالقابلية للتفسير لـ Transformers البصرية

Bowen Pan¹, Rameswar Panda², Yifan Jiang³, Zhangyang Wang³, Rogerio Feris², Aude Oliva¹,²

الملخص

النموذج القائم على الذاتية الانتباه (الترانسفورمر) أصبح مؤخرًا العمود الفقري الرئيسي في مجال رؤية الحاسوب. رغم النجاح المثير للإعجاب الذي حققه الترانسفورمر في مجموعة متنوعة من مهام الرؤية، لا يزال يعاني من حسابات ثقيلة وتكاليف ذاكرة عالية. لمعالجة هذا القيد، يقدم هذا البحث إطارًا لتقليل الأحجام الزائدة مع الوعي بالتأويل (IA-RED2^22). نبدأ بملاحظة وجود كمية كبيرة من الحسابات الزائدة، والتي تنفق بشكل أساسي على بقع الإدخال غير المرتبطة، ثم نقدم وحدة قابلة للتأويل تلقي هذه البقع الزائدة بطريقة ديناميكية ومنسجمة. يتم توسيع هذا الإطار الجديد إلى هيكل هرمي، حيث يتم إزالة الرموز غير المرتبطة تدريجيًا في المراحل المختلفة، مما يؤدي إلى تقليص كبير في تكاليف الحساب. نقوم بتضمين تجارب واسعة النطاق على مهام الصور والفيديوهات، حيث يمكن أن توفر طريقتنا زيادة سرعة تصل إلى 1.4 مرة للموديلات المتقدمة مثل DeiT وTimeSformer، مع التضحية بنسبة أقل من 0.7% في الدقة. وأهم من ذلك، على عكس نهج التسارع الأخرى، فإن طريقتنا قابلة للتأويل بشكل جوهري مع أدلة بصرية مهمة، مما يجعل الترانسفورمر البصري أقرب إلى بنية أكثر فهمًا للإنسان بينما يكون أخف وزنًا. نوضح أن التأويل الذي ظهر بشكل طبيعي في إطارنا يمكن أن يتفوق على الانتباه الخام الذي تعلمه الترانسفورمر البصري الأصلي وكذلك تلك التي تم إنشاؤها بواسطة طرق التأويل الجاهزة، وذلك باستخدام النتائج النوعية والكمية. صفحة المشروع: http://people.csail.mit.edu/bpan/ia-red/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp