المطابقة المحلية بين الرؤية واللغة لاكتشاف الأشياء بمفردات مفتوحة

في هذا العمل، نقترح طريقة للكشف عن الأشياء ذات المفردات المفتوحة تعتمد على أزواج الصور والتعليقات (image-caption pairs)، وتتعلم الكشف عن فئات أشياء جديدة إلى جانب مجموعة معينة من الفئات المعروفة. إنها طريقة تدريب ثنائية المرحلة، حيث يتم في المرحلة الأولى استخدام تقنية مطابقة الصور والتعليقات بمساعدة الموقع (location-guided image-caption matching) لتعلم التسميات الفئوية للأصناف الجديدة والمعروفة بطريقة ضعيفة الإشراف (weakly-supervised manner)، وفي المرحلة الثانية يتم تخصيص النموذج لمهمة الكشف عن الأشياء باستخدام التسميات الفئوية المعروفة. نظهر أن نموذج اللغة البسيط يناسب بشكل أفضل من نموذج اللغة السياقي الكبير في كشف الأشياء الجديدة. بالإضافة إلى ذلك، نقدم تقنية تنظيم الثبات (consistency-regularization) لاستغلال معلومات أزواج الصور والتعليقات بشكل أفضل. تقارن طريقتنا بشكل ملائم مع الطرق الحالية للكشف عن المفردات المفتوحة بينما تكون فعالة من حيث البيانات. يمكن الوصول إلى شفرة المصدر من خلال الرابط: https://github.com/lmb-freiburg/locov .