HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-ViT: دمج الموجات والمحولات لتعلم التمثيل البصري

Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei

الملخص

أصبح نموذج التحويل البصري متعدد المقياس (ViT) خلفية قوية للمهام المتعلقة بالرؤية الحاسوبية، بينما يتناسب حساب الانتباه الذاتي في نموذج التحويل بشكل تربيعي بالنسبة لعدد اللوحات المدخلة. ولهذا السبب، تُستخدم الحلول الحالية عادةً عمليات تقليل الحجم (مثل التجميع المتوسط) على المفاتيح/القيم لتقليل التكلفة الحسابية بشكل كبير. في هذه الدراسة، نحن نجادل بأن تصميم تقليل الحجم المفرط هذا غير قابل للعكس، ويؤدي بالضرورة إلى فقدان المعلومات، خاصة المكونات عالية التردد في الكائنات (مثل التفاصيل النسيجية). مستلهمين من نظرية الموجات، نُنشئ نموذج التحويل البصري الموجي (\textbf{Wave-ViT}) الذي يُصوغ عملية تقليل الحجم القابلة للعكس باستخدام تحويلات الموجات والتعلم بالانتباه الذاتي بطريقة موحدة. يُمكّن هذا الاقتراح من تعلم الانتباه الذاتي مع تقليل الحجم دون فقدان، على المفاتيح/القيم، مما يُسهل تحقيق توازن أفضل بين الكفاءة والدقة. علاوةً على ذلك، تُستخدم تحويلات الموجات العكسية لتعزيز مخرجات الانتباه الذاتي من خلال تجميع السياقات المحلية مع مجال استقبال موسّع. ونُثبت تفوق نموذج Wave-ViT من خلال تجارب واسعة على مهام بصرية متعددة (مثل التعرف على الصور، الكشف عن الكائنات، والتقسيم التماثلي). وتتفوق أداؤه على الخلفيات ViT الأفضل في الحالة الراهنة، مع عدد مماثل من العمليات الحسابية (FLOPs). يُمكن الوصول إلى الكود المصدري عبر الرابط: \url{https://github.com/YehLi/ImageNetModel}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp