EfficientViT: انتباه خطي متعدد المقاييس للتنبؤ الكثيف عالي الدقة

تمكّن التنبؤ الكثيف عالي الدقة من تطبيقات واقعية جذابة عديدة، مثل التصوير الحاسوبي والقيادة الذاتية. ومع ذلك، فإن التكلفة الحسابية الهائلة تجعل من الصعب نشر النماذج الرائدة في مجال التنبؤ الكثيف عالي الدقة على الأجهزة المادية. تقدم هذه الدراسة EfficientViT، عائلة جديدة من نماذج الرؤية عالية الدقة، تعتمد على انتباه خطي متعدد المقياس. على عكس النماذج السابقة التي تعتمد على انتباه softmax الثقيل، أو التقطيع المكاني الكبير غير الفعّال من حيث الأجهزة، أو الهياكل المعقدة لتحسين الأداء، فإن انتباهنا الخطي متعدد المقياس يحقق مجال الاستقبال العالمي والتعلم متعدد المقياس (خاصيتان مطلوبتان بشدة في التنبؤ الكثيف عالي الدقة) باستخدام عمليات خفيفة الوزن وفعّالة من حيث الأجهزة. وبذلك، تقدم EfficientViT تحسينات كبيرة في الأداء مقارنة بالنماذج الرائدة السابقة، مع تسريع ملحوظ على منصات أجهزة متنوعة، بما في ذلك وحدات المعالجة المركزية المحمولة، ووحدات معالجة الرسوميات على الحافة، ووحدات معالجة الرسوميات في السحابة. وبلا فقدان في الأداء على مجموعة بيانات Cityscapes، تقدم EfficientViT تقليلًا يصل إلى 13.9 مرة و6.2 مرة في زمن التأخير على وحدة معالجة الرسوميات مقارنة بـ SegFormer و SegNeXt على التوالي. أما في مجال التكبير الفائق، فتقدم EfficientViT تسريعًا يصل إلى 6.4 مرة مقارنة بـ Restormer، مع تحقيق مكسب قدره 0.11 ديسيبل في معيار PSNR. وفي تطبيق Segment Anything، تحقق EfficientViT زيادة في الإنتاجية بنسبة 48.9 مرة على وحدة معالجة الرسوميات A100، مع تحقيق أداءً أفضل قليلاً في التصنيف التلقائي للInstances بدون تدريب مسبق على مجموعة بيانات COCO.