HyperAIHyperAI

Command Palette

Search for a command to run...

دمج الرموز: فيت الخاص بك ولكن أسرع

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

الملخص

نقدم طريقة بسيطة تسمى دمج الرموز (ToMe) لزيادة معدّل الإنتاجية لأنماط ViT الموجودة دون الحاجة إلى التدريب. تقوم ToMe بتجميع الرموز المتشابهة تدريجيًا في محول باستخدام خوارزمية مطابقة عامة وخفيفة الوزن تكون بنفس سرعة التقليم وأكثر دقة. بشكل فوري، يمكن لـ ToMe مضاعفة معدّل الإنتاجية لأنماط ViT-L @ 512 وViT-H @ 518 على الصور بمقدار الضعف، وأنموذج ViT-L على الفيديو بمقدار 2.2 مرة مع انخفاض دقيق بنسبة 0.2-0.3% في كل حالة. يمكن أيضًا تطبيق ToMe بسهولة أثناء التدريب، مما يحسن سرعة التدريب عمليًا بمقدار الضعف لتحسين MAE على الفيديو. يؤدي التدريب باستخدام ToMe إلى تقليص الانخفاض الدقيق بشكل أكبر، مما يؤدي إلى مضاعفة معدّل الإنتاجية لأنموذج ViT-B على الصوت بنسبة 0.4% فقط من انخفاض mAP. بشكل كمي، نجد أن ToMe تقوم بدمج أجزاء الأشياء في رمز واحد، حتى عبر عدة إطارات من الفيديو. بشكل عام، تعتبر دقة وسرعة ToMe تنافسية مع أفضل ما هو موجود في مجالات الصور والفيديو والصوت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
دمج الرموز: فيت الخاص بك ولكن أسرع | مستندات | HyperAI