Command Palette
Search for a command to run...
المطابقة المحلية بين الرؤية واللغة لاكتشاف الأشياء بمفردات مفتوحة
المطابقة المحلية بين الرؤية واللغة لاكتشاف الأشياء بمفردات مفتوحة
María A. Bravo Sudhanshu Mittal Thomas Brox
الملخص
في هذا العمل، نقترح طريقة للكشف عن الأشياء ذات المفردات المفتوحة تعتمد على أزواج الصور والتعليقات (image-caption pairs)، وتتعلم الكشف عن فئات أشياء جديدة إلى جانب مجموعة معينة من الفئات المعروفة. إنها طريقة تدريب ثنائية المرحلة، حيث يتم في المرحلة الأولى استخدام تقنية مطابقة الصور والتعليقات بمساعدة الموقع (location-guided image-caption matching) لتعلم التسميات الفئوية للأصناف الجديدة والمعروفة بطريقة ضعيفة الإشراف (weakly-supervised manner)، وفي المرحلة الثانية يتم تخصيص النموذج لمهمة الكشف عن الأشياء باستخدام التسميات الفئوية المعروفة. نظهر أن نموذج اللغة البسيط يناسب بشكل أفضل من نموذج اللغة السياقي الكبير في كشف الأشياء الجديدة. بالإضافة إلى ذلك، نقدم تقنية تنظيم الثبات (consistency-regularization) لاستغلال معلومات أزواج الصور والتعليقات بشكل أفضل. تقارن طريقتنا بشكل ملائم مع الطرق الحالية للكشف عن المفردات المفتوحة بينما تكون فعالة من حيث البيانات. يمكن الوصول إلى شفرة المصدر من خلال الرابط: https://github.com/lmb-freiburg/locov .