استغلال نماذج الانتشار للإدراك البصري باستخدام موجهات متعددة

تُعدّ مشكلة التدريب المسبق التوليدي لنموذج الرؤية قضية معقدة ومستمرة منذ فترة طويلة. في الوقت الراهن، تُظهر نماذج التشتت النصية إلى الصورة (T2I) كفاءة متميزة في إنتاج صور عالية الدقة تتماشى مع المدخلات النصية، وهي إمكانية ممكنة بفضل تدريبها المسبق على أزواج ضخمة من الصور والنصوص. هذا يطرح سؤالاً طبيعياً: هل يمكن استخدام نماذج التشتت لمعالجة مهام إدراك البصر؟ في هذه الورقة، نقترح خطة بسيطة وفعالة لاستخدام نموذج التشتت في مهام إدراك البصر. يكمن رؤيتنا الأساسية في إدخال تضمينات قابلة للتعلم (تسمى "مُحفِّزات ماكرو" أو meta prompts) إلى النماذج المُدرَّبة مسبقًا على التشتت، بهدف استخراج سمات مناسبة لمهام الإدراك. تُظهر مُحفِّزات ماكرو تأثيرين رئيسيين. أولاً، بوصفها بديلًا مباشرًا للتمثيلات النصية في نماذج T2I، يمكنها تفعيل السمات ذات الصلة بالمهام أثناء عملية استخراج السمات. ثانيًا، سيتم استخدامها لإعادة ترتيب السمات المستخرجة، لضمان تركيز النموذج على السمات الأكثر صلة بالمهام الحالية. بالإضافة إلى ذلك، قمنا بتصميم استراتيجية تدريب تكرارية للتحسين، والتي تستغل بالكامل خاصية نماذج التشتت، مما يؤدي إلى استخلاص سمات بصرية أقوى. وقد أثبتت تجارب واسعة عبر مجموعة متنوعة من المعايير فعالية نهجنا. فقد حقق النهج المُقترح أرقامًا قياسية جديدة في مهام تقدير العمق على مجموعتي بيانات NYU Depth V2 وKITTI، وفي مهمة التجزئة الدلالية على مدينة CityScapes. وفي الوقت نفسه، تحقق الطريقة المقترحة نتائج مماثلة للحالة الراهنة من التقدم في مجال التجزئة الدلالية على مجموعة بيانات ADE20K، وفي تقدير الوضع (pose estimation) على مجموعة بيانات COCO، مما يُبرز بوضوح متانتها وتنوعها.