Command Palette
Search for a command to run...
GIM: تعلم مطابقة الصور القابلة للتعميم من مقاطع الفيديو على الإنترنت
GIM: تعلم مطابقة الصور القابلة للتعميم من مقاطع الفيديو على الإنترنت
Shen Xuelun ; Cai Zhipeng ; Yin Wei ; Müller Matthias ; Li Zijun ; Wang Kaixuan ; Chen Xiaozhi ; Wang Cheng
الملخص
المطابقة الصورية هي مشكلة أساسية في رؤية الحاسوب. بينما تحقق الطرق القائمة على التعلم أداءً متقدمًا على المعايير الموجودة، فإنها تعمم بشكل ضعيف إلى الصور الطبيعية. عادةً ما تحتاج مثل هذه الطرق إلى تدريب نماذج منفصلة لأنواع مختلفة من المشاهد وتكون غير عملية عندما يكون نوع المشهد غير معروف مسبقًا. أحد المشكلات الأساسية هو قابلية التوسع المحدودة لخطوط إنتاج البيانات الموجودة، مما يحد من تنوع مجموعات بيانات مطابقة الصور القياسية. لحل هذه المشكلة، نقترح GIM، وهو إطار ذاتي التدريب لتعلم نموذج قابل للتعميم بناءً على أي هندسة لمطابقة الصور باستخدام مقاطع الفيديو على الإنترنت، وهي مصدر بيانات غزير ومتنوع. بالنظر إلى هندسة معينة، يقوم GIM أولاً بتدريبها على مجموعات بيانات خاصة بالمجال ثم يجمعها مع طرق المطابقة المكملة لإنشاء تسميات كثيفة في الإطارات المجاورة لمقاطع الفيديو الجديدة. يتم تصفيت هذه التسميات بواسطة التوافق القوي، ومن ثم تعزيزها بنشرها إلى الإطارات البعيدة. يتم تدريب النموذج النهائي على البيانات المنتشرة مع تحسينات قوية. كما نقترح ZEB، وهو أول معيار تقييم بدون تصوير للصورة لمطابقة الصور. من خلال خلط البيانات من مجالات متنوعة، يمكن لـ ZEB أن يقيم بدقة أداء التعميم عبر المجالات للطرق المختلفة. يؤدي تطبيق GIM إلى تحسين الأداء بدون تصوير بشكل مستمر لنماذج ثلاثة هياكل صورية متقدمة؛ حيث يتحسن الأداء النسبي بدون تصوير بنسبة 8.4٪-18.1٪ باستخدام 50 ساعة من مقاطع الفيديو على YouTube. كما يمكن GIM أيضًا التعميم إلى بيانات عبر المجالات المتطرفة مثل صور العرض الطائر (BEV) للسحابات النقاطية ثلاثية الأبعاد (الشكل 1(ج)). وأكثر أهمية من ذلك، فإن نموذجنا الوحيد بدون تصوير يتخطى باستمرار خطوط الأساس الخاصة بالمجال عند تقييمه في المهام الثانوية التي تنتمي إلى مجالاتها الخاصة. يمكن الوصول إلى عرض الفيديو في https://www.youtube.com/watch?v=FU_MJLD8LeY.