منذ 8 أشهر

الملخص

نقدم طريقة بسيطة تسمى دمج الرموز (ToMe) لزيادة معدّل الإنتاجية لأنماط ViT الموجودة دون الحاجة إلى التدريب. تقوم ToMe بتجميع الرموز المتشابهة تدريجيًا في محول باستخدام خوارزمية مطابقة عامة وخفيفة الوزن تكون بنفس سرعة التقليم وأكثر دقة. بشكل فوري، يمكن لـ ToMe مضاعفة معدّل الإنتاجية لأنماط ViT-L @ 512 وViT-H @ 518 على الصور بمقدار الضعف، وأنموذج ViT-L على الفيديو بمقدار 2.2 مرة مع انخفاض دقيق بنسبة 0.2-0.3% في كل حالة. يمكن أيضًا تطبيق ToMe بسهولة أثناء التدريب، مما يحسن سرعة التدريب عمليًا بمقدار الضعف لتحسين MAE على الفيديو. يؤدي التدريب باستخدام ToMe إلى تقليص الانخفاض الدقيق بشكل أكبر، مما يؤدي إلى مضاعفة معدّل الإنتاجية لأنموذج ViT-B على الصوت بنسبة 0.4% فقط من انخفاض mAP. بشكل كمي، نجد أن ToMe تقوم بدمج أجزاء الأشياء في رمز واحد، حتى عبر عدة إطارات من الفيديو. بشكل عام، تعتبر دقة وسرعة ToMe تنافسية مع أفضل ما هو موجود في مجالات الصور والفيديو والصوت.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار