نموذج التحفيز الجيني لتحديد موقع الكائنات تحت الإشراف الضعيف

التحديات لا تزال قائمة في تحديد مواقع الأشياء تحت الإشراف الضعيف (WSOL) عند تعلم نماذج تحديد المواقع من علامات فئات الصور. الأساليب التقليدية التي تقوم بتدريب نماذج التنشيط بشكل تمييزي تتجاهل أجزاء الأشياء الممثلة ولكن أقل تمييزًا. في هذه الدراسة، نقترح نموذج الدعوة التوليدي (GenPromp)، والذي يحدد أول خط أنابيب توليدي لتحديد مواقع أجزاء الأشياء الأقل تمييزًا من خلال صياغة WSOL كعملية تنقية الصور المشروطة. أثناء التدريب، يقوم GenPromp بتحويل علامات فئات الصور إلى مضمنات دعوة قابلة للتعلم والتي يتم إدخالها إلى النموذج التوليدي لاستعادة الصورة المدخلة مع الضوضاء وتعلم المضمنات الممثلة. أثناء الاستدلال، يقوم enPromp بدمج المضمنات الممثلة مع المضمنات التمييزية (المستفسحة من نموذج الرؤية-اللغة الجاهز) لتحقيق القدرة على التمثيل والتمييز. يتم استخدام المضمنات المتداخلة في النهاية لإنشاء خرائط انتباه عالية الجودة متعددة المقاييس، مما يساعد في تحديد مدى الكائن الكامل. أظهرت التجارب على مجموعتي بيانات CUB-200-2011 وILSVRC أن GenPromp يتفوق على أفضل النماذج التمييزية بنسبة 5.2% و5.6% (Top-1 Loc) على التوالي، مما يحدد أساسًا متينًا لـ WSOL باستخدام النموذج التوليدي. يمكن الحصول على الشفرة البرمجية من https://github.com/callsys/GenPromp.