EVP: إدراك بصري محسّن باستخدام تحسين مُعدّل للسمات متعددة الانتباه العكسي ومحاذاة صورة-نص منظمة

تُقدّم هذه الدراسة معمارية الشبكة EVP (إي.في.بي: تحسين الإدراك البصري). تعتمد EVP على العمل السابق VPD، الذي فتح الطريق لاستخدام شبكة Stable Diffusion في المهام المتعلقة بvisión الحاسوبية. نقترح تحسينين رئيسيين. أولاً، نطوّر وحدة تحسين السمات العكسية المتعددة الانتباه (IMAFR)، التي تُعزّز قدرات تعلّم السمات من خلال تجميع المعلومات المكانية من المستويات العليا في الهرم. ثانيًا، نقترح وحدة جديدة للتوافق بين الصورة والنص لتحسين استخراج السمات من النواة الأساسية لشبكة Stable Diffusion. تُعدّ البنية الناتجة مناسبة لطائفة واسعة من المهام، ونُظهر أداؤها في سياق تقدير العمق من صورة واحدة باستخدام فكّ ترميز مخصص يعتمد على فئات تصنيفية، وكذلك في مهام التجزئة المرجعية باستخدام فك ترميز جاهز للعمل (off-the-shelf). أظهرت التجارب الشاملة التي أُجريت على مجموعات بيانات متعارف عليها أن EVP تحقق نتائج متقدمة في مجال تقدير العمق من صورة واحدة في البيئات الداخلية (NYU Depth v2، مع تحسين بنسبة 11.8% في جذر متوسط الخطأ التربيعي مقارنة بـ VPD) والخارجية (KITTI)، وكذلك في مهام التجزئة المرجعية (RefCOCO، مع تحسين بنسبة 2.53 في معامل IoU مقارنة بـ ReLA). تم إتاحة الكود والنماذج المُدرّبة مسبقًا بشكل عام عبر الرابط: https://github.com/Lavreniuk/EVP.