ClipSitu: الاستفادة الفعالة من CLIP للتنبؤات المشروطة في التعرف على المواقف

التعرف على الوضع هو مهمة إنشاء ملخص منظم لما يحدث في الصورة باستخدام فعل نشاط والدلالات الدلالية التي يلعبها الأفراد والأجسام. في هذه المهمة، يمكن للفعل النشاط نفسه أن يصف مجموعة متنوعة من الظروف، وكذلك يمكن للصنف الفردي أو الجسمي نفسه أن يلعب مجموعة متنوعة من الأدوار الدلالية اعتمادًا على الوضع المعروض في الصورة. ولذلك، يحتاج نموذج التعرف على الوضع إلى فهم سياق الصورة ومعنى الأدوار الدلالية البصري-اللغوي. ومن ثم، نستفيد من النموذج الأساسي CLIP الذي تعلم سياق الصور عبر وصفها باللغة. نوضح أن الكتل العصبية متعددة الطبقات (MLP) الأكثر عمقًا واتساعًا تحقق نتائج بارزة في مهمة التعرف على الوضع عن طريق استخدام خصائص تضمين الصور والنصوص الخاصة بـ CLIP، وهي حتى تتفوق على أحدث النماذج المتقدمة مثل CoFormer، وهو نموذج يستند إلى الشبكات العصبية التحويلية (Transformer)، بفضل المعرفة البصرية-اللغوية الضمنية الخارجية التي يحتوي عليها CLIP والقوة التعبيرية لتصاميم الكتل العصبية MLP الحديثة. مستوحين من هذا الأمر، صممنا شبكة تحويلية تعتمد على الانتباه المتقاطع باستخدام رموز CLIP البصرية لنمذجة العلاقة بين الأدوار النصية والكيانات البصرية. شبكتنا التحويلية المعتمدة على الانتباه المتقاطع المعروفة باسم ClipSitu XTF تتفوق بشكل كبير على أحدث التقنيات القائمة بنسبة 14.1٪ في تصنيف الأدوار الدلالية (القيمة) للدقة الأولى باستخدام مجموعة بيانات imSitu. {وبالمثل، فإن ClipSitu XTF لدينا تحصل على أفضل أداء في تحديد موقع الوضع}. سنقوم بنشر الرمز البرمجي بشكل عام.