Command Palette
Search for a command to run...
Wave-ViT: دمج الموجات والمحولات لتعلم التمثيل البصري
Wave-ViT: دمج الموجات والمحولات لتعلم التمثيل البصري
Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei
الملخص
أصبح نموذج التحويل البصري متعدد المقياس (ViT) خلفية قوية للمهام المتعلقة بالرؤية الحاسوبية، بينما يتناسب حساب الانتباه الذاتي في نموذج التحويل بشكل تربيعي بالنسبة لعدد اللوحات المدخلة. ولهذا السبب، تُستخدم الحلول الحالية عادةً عمليات تقليل الحجم (مثل التجميع المتوسط) على المفاتيح/القيم لتقليل التكلفة الحسابية بشكل كبير. في هذه الدراسة، نحن نجادل بأن تصميم تقليل الحجم المفرط هذا غير قابل للعكس، ويؤدي بالضرورة إلى فقدان المعلومات، خاصة المكونات عالية التردد في الكائنات (مثل التفاصيل النسيجية). مستلهمين من نظرية الموجات، نُنشئ نموذج التحويل البصري الموجي (\textbf{Wave-ViT}) الذي يُصوغ عملية تقليل الحجم القابلة للعكس باستخدام تحويلات الموجات والتعلم بالانتباه الذاتي بطريقة موحدة. يُمكّن هذا الاقتراح من تعلم الانتباه الذاتي مع تقليل الحجم دون فقدان، على المفاتيح/القيم، مما يُسهل تحقيق توازن أفضل بين الكفاءة والدقة. علاوةً على ذلك، تُستخدم تحويلات الموجات العكسية لتعزيز مخرجات الانتباه الذاتي من خلال تجميع السياقات المحلية مع مجال استقبال موسّع. ونُثبت تفوق نموذج Wave-ViT من خلال تجارب واسعة على مهام بصرية متعددة (مثل التعرف على الصور، الكشف عن الكائنات، والتقسيم التماثلي). وتتفوق أداؤه على الخلفيات ViT الأفضل في الحالة الراهنة، مع عدد مماثل من العمليات الحسابية (FLOPs). يُمكن الوصول إلى الكود المصدري عبر الرابط: \url{https://github.com/YehLi/ImageNetModel}.