منذ 8 أشهر

الملخص

أصبح نموذج التحويل البصري متعدد المقياس (ViT) خلفية قوية للمهام المتعلقة بالرؤية الحاسوبية، بينما يتناسب حساب الانتباه الذاتي في نموذج التحويل بشكل تربيعي بالنسبة لعدد اللوحات المدخلة. ولهذا السبب، تُستخدم الحلول الحالية عادةً عمليات تقليل الحجم (مثل التجميع المتوسط) على المفاتيح/القيم لتقليل التكلفة الحسابية بشكل كبير. في هذه الدراسة، نحن نجادل بأن تصميم تقليل الحجم المفرط هذا غير قابل للعكس، ويؤدي بالضرورة إلى فقدان المعلومات، خاصة المكونات عالية التردد في الكائنات (مثل التفاصيل النسيجية). مستلهمين من نظرية الموجات، نُنشئ نموذج التحويل البصري الموجي (\textbf{Wave-ViT}) الذي يُصوغ عملية تقليل الحجم القابلة للعكس باستخدام تحويلات الموجات والتعلم بالانتباه الذاتي بطريقة موحدة. يُمكّن هذا الاقتراح من تعلم الانتباه الذاتي مع تقليل الحجم دون فقدان، على المفاتيح/القيم، مما يُسهل تحقيق توازن أفضل بين الكفاءة والدقة. علاوةً على ذلك، تُستخدم تحويلات الموجات العكسية لتعزيز مخرجات الانتباه الذاتي من خلال تجميع السياقات المحلية مع مجال استقبال موسّع. ونُثبت تفوق نموذج Wave-ViT من خلال تجارب واسعة على مهام بصرية متعددة (مثل التعرف على الصور، الكشف عن الكائنات، والتقسيم التماثلي). وتتفوق أداؤه على الخلفيات ViT الأفضل في الحالة الراهنة، مع عدد مماثل من العمليات الحسابية (FLOPs). يُمكن الوصول إلى الكود المصدري عبر الرابط: \url{https://github.com/YehLi/ImageNetModel}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار