مُحَوِّل مُتَّسِقٌ مع السياق المحلي-العَام للتحليل النصي-المرئي المُوجَّه باللغة

نستكشف مهمة التجزئة المرئية الموجهة باللغة (LVS). تعتمد الخوارزميات السابقة بشكل رئيسي على الشبكات العصبية الثلاثية الأبعاد (3D CNNs) لتعلم تمثيل الفيديو، لكنها تواجه صعوبات في التقاط السياق الطويل الأمد، وغالبًا ما تتعرض لانعدام التزامن البصري-اللغوي. ونظرًا لذلك، نقدّم نموذج "لوكاتر" (Locater) – وهو نموذج يعتمد على معمارية الترانسفورمر المُدرك للسياق المحلي والكلي – والذي يُزوّد معمارية الترانسفورمر بذاكرة محدودة تُمكّنه من استعلام الفيديو بأكمله بطريقة فعّالة باستخدام التعبير اللغوي. تم تصميم هذه الذاكرة لتتضمن مكوّنين: الأول يُحافظ بشكل مستمر على المحتوى العام للفيديو، والثاني يجمع ديناميكيًا السياق الزمني المحلي وتاريخ التجزئة. وباستخدام السياق المحلي والكلي المُخزّن، بالإضافة إلى المحتوى الخاص بكل إطار، يُدرك لوكاتر التعبير بشكل شامل ومرن، ويحوّله إلى متجه استعلام تكيّفي لكل إطار. ويُستخدم هذا المتجه لاستعلام الإطار المقابل بهدف إنشاء القناع (mask). كما تسمح الذاكرة بمعالجة الفيديوهات بتعقيد زمني خطي وحجم ذاكرة ثابت، بينما يزداد تعقيد حساب الانتباه الذاتي من نوع الترانسفورمر تربيعياً مع طول التسلسل. ولتقييم شامل لقدرة نماذج LVS على التأصيل البصري، نقدّم مجموعة بيانات جديدة لـ LVS تُسمى A2D-S+، التي تم بناؤها على مجموعة بيانات A2D-S لكنها تطرح تحديات أكبر في التمييز بين الكائنات المشابهة. أظهرت التجارب على ثلاث مجموعات بيانات لـ LVS، بما في ذلك مجموعة A2D-S+، أن لوكاتر يتفوّق على النماذج السابقة الأكثر تقدماً. علاوة على ذلك، حصلنا على المركز الأول في مسار التجزئة المرئية الموجهة بالإشارة (Referring Video Object Segmentation Track) ضمن Challenge لتنظيم التجزئة الكبيرة للأشياء في الفيديو للدورة الثالثة، حيث كان لوكاتر الأساس لحل الفائز. يمكن الوصول إلى الكود والمجموعة الجديدة عبر الرابط التالي: https://github.com/leonnnop/Locater