محاذاة النص والصورة للاستشعار القائم على الانتشار

النماذج التفاضلية هي نماذج توليدية تتميز بقدرات مثيرة للإعجاب في تحويل النص إلى صورة، وقد أثارت موجة جديدة من الطرق الإبداعية لمهام التعلم الآلي الكلاسيكية. ومع ذلك، فإن أفضل طريقة لاستغلال المعرفة الحسية لهذه النماذج التوليدية في المهام البصرية لا تزال سؤالًا مفتوحًا. بشكل خاص، لم يتضح بعد كيفية استخدام واجهة الدفع عند تطبيق نوى التفاضل على المهام البصرية. لقد اكتشفنا أن العناوين التي يتم إنشاؤها تلقائيًا يمكن أن تحسن تناسق النص مع الصورة وتزيد بشكل كبير من خرائط الانتباه المتقاطع للنموذج، مما يؤدي إلى أداء حسي أفضل. يحسن نهجنا على الحالة الحالية لأفضل ما تم الوصول إليه (SOTA) في تقسيم المعنى باستخدام النماذج التفاضلية على ADE20K وعلى الحالة العامة لأفضل ما تم الوصول إليه (SOTA) في تقدير العمق على NYUv2. بالإضافة إلى ذلك، يعمم نهجنا على الإعداد بين المجالات. نستخدم تعديلات الشخصية والعناوين لتوفيق نموذجنا مع المجال المستهدف ونجد تحسينات على القواعد غير المتوفقة. يحقق نموذج الكشف عن الأشياء بين المجالات لدينا، الذي تم تدريبه على Pascal VOC، أفضل النتائج التي تم الوصول إليها (SOTA) على Watercolor2K. أما طريقة التقسيم بين المجالات لدينا، التي تم تدريبها على Cityscapes، فتحقيق أفضل النتائج التي تم الوصول إليها (SOTA) على Dark Zurich-val وNighttime Driving. صفحة المشروع: https://www.vision.caltech.edu/tadp/. الرمز البرمجي: https://github.com/damaggu/TADP.