اكتشاف الأشياء ذات المفردات المفتوحة باستخدام التسميات التوضيحية

رغم الدقة الملحوظة التي تحققها الشبكات العصبية العميقة في اكتشاف الأشياء، فإن تدريبها وتوسيع نطاقها باهظ الثمن بسبب متطلبات الإشراف. خصوصًا، فإن تعلم المزيد من فئات الأشياء عادةً ما يتطلب نسبة أكبر من التسميات المحددة بالصناديق الحدودية. تم استكشاف تقنيات التعلم بالإشراف الضعيف والتعلم بدون أمثلة لتوسيع نطاق مكتشفات الأشياء إلى المزيد من الفئات مع أقل إشراف، ولكنها لم تحقق النجاح أو الانتشار الذي حققته النماذج الإشرافية. في هذا البحث، نقدم صياغة جديدة للمشكلة المتعلقة باكتشاف الأشياء، وهي اكتشاف الأشياء بمعجم مفتوح (open-vocabulary object detection)، والتي تعد أكثر عمومية، وأكثر عملية، وأكثر فعالية من نهج التعلم بالإشراف الضعيف والتعلم بدون أمثلة. نقترح طريقة جديدة لتدريب مكتشفات الأشياء باستخدام تسميات الصناديق الحدودية لمجموعة محدودة من فئات الأشياء، بالإضافة إلى أزواج الصور والتعليقات التي تغطي مجموعة أكبر من الأشياء وبتكلفة أقل بكثير. نظهر أن الطريقة المقترحة يمكنها اكتشاف وتتبع الأشياء التي لم يتم توفير أي تسمية للصناديق الحدودية لها أثناء التدريب بدقة أعلى بكثير من نهج التعلم بدون أمثلة. وفي الوقت نفسه، يمكن اكتشاف الأشياء التي تم توفير تسميات للصناديق الحدودية لها بمستوى دقة يقارب تلك التي تحققها الأساليب الإشرافية، وهو أفضل بكثير من أسس التعلم بالإشراف الضعيف. وفقًا لذلك، نحدد حالة جديدة رائدة في مجال توسيع نطاق اكتشاف الأشياء.