HyperAIHyperAI
منذ 2 أشهر

الكشف البسيط عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

Minderer, Matthias ; Gritsenko, Alexey ; Stone, Austin ; Neumann, Maxim ; Weissenborn, Dirk ; Dosovitskiy, Alexey ; Mahendran, Aravindh ; Arnab, Anurag ; Dehghani, Mostafa ; Shen, Zhuoran ; Wang, Xiao ; Zhai, Xiaohua ; Kipf, Thomas ; Houlsby, Neil
الكشف البسيط عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية
الملخص

الجمع بين الهندسات البسيطة والتدريب المسبق على نطاق واسع قد أدى إلى تحسينات كبيرة في تصنيف الصور. بالنسبة للكشف عن الأهداف، فإن نهج التدريب المسبق والتوسع أقل تطورًا، خاصة في الإعداد ذي الذيل الطويل والمفردات المفتوحة، حيث تكون بيانات التدريب نسبيًا محدودة. في هذا البحث، نقترح وصفة قوية لنقل نماذج الصورة-النص إلى الكشف عن الأهداف ذو المفردات المفتوحة. نستخدم هندسة متحول الرؤية القياسية مع تعديلات بسيطة جدًا، والتدريب المسبق التضادي للصورة-النص، وتحسين الكشف من النهاية إلى النهاية. تحليلنا لخصائص التوسع لهذا الإعداد يظهر أن زيادة التدريب المسبق على مستوى الصورة وحجم النموذج يؤدي إلى تحسينات مستمرة في مهمة الكشف اللاحقة. نقدم استراتيجيات التكيف والتقييد اللازمة لتحقيق أداء قوي للغاية في كشف الأهداف بشروط النص بدون أمثلة (zero-shot) وكشف الأهداف بشروط الصورة بأمثلة واحدة (one-shot). الشفرة البرمجية والنماذج متاحة على موقع GitHub.

الكشف البسيط عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية | أحدث الأوراق البحثية | HyperAI