الاستيعاب التدرجي عبر الوسائط للتقسيم المرجعي

بالنظر إلى تعبير بلغة طبيعية وصورة/فيديو، يهدف التجزئة المرجعية إلى إنتاج أقنعة على مستوى البكسل للكيانات الموصوفة بواسطة الفاعل في التعبير. تتناول الطرق السابقة هذه المشكلة من خلال تفاعل ودمج خصائص غير صريحة بين الوسائط البصرية واللغوية بطريقة واحدة المرحلة. ومع ذلك، يميل الإنسان إلى حل مشكلة التجزئة المرجعية بطريقة تدريجية تعتمد على الكلمات المفيدة في التعبير، أي أولاً تحديد كيانات مرشحة بشكل تقريبي، ثم التمييز بين الكيان المستهدف. في هذه الورقة، نقترح مخططًا تدريجيًا متعدد الوسائط للفهم (CMPC) لمحاكاة فعالة للسلوك البشري، ونُطبّقه كوحدة CMPC-I (للمستندات الصورية) ووحدة CMPC-V (للمستندات المرئية) لتحسين نماذج التجزئة المرجعية للصور والفيديوهات. بالنسبة للبيانات الصورية، تستخدم وحدة CMPC-I أولاً كلمات الكيان والصفات لاستشعار جميع الكيانات المرتبطة التي قد يُقصد بها التعبير. ثم تُستخدم كلمات العلاقات لتمييز الكيان المستهدف وقمع الكيانات غير ذات صلة الأخرى من خلال استدلال رسم بياني مكاني. أما بالنسبة للبيانات المرئية، فإن وحدة CMPC-V تُعمّق الاستفادة من كلمات الفعل استنادًا إلى CMPC-I لتمييز الكيان الصحيح المتوافق مع مؤشرات الفعل من خلال استدلال رسم بياني زمني. بالإضافة إلى مخطط CMPC، نُقدّم أيضًا وحدة بسيطة وفعّالة تُسمى "تبادل الميزات الموجهة بالنص" (TGFE) لدمج الخصائص متعددة الوسائط التي تم استخلاصها على مستويات مختلفة في الهيكل البصري، وذلك تحت إشراف المعلومات النصية. وبهذا، يمكن للخصائص متعددة المستويات التفاعل مع بعضها البعض وتحسين بعضها البعض بناءً على السياق النصي. وبدمج CMPC-I أو CMPC-V مع TGFE، يمكن بناء إطار عمل للتجزئة المرجعية للصور أو الفيديوهات، والذي حقق أداءً جديدًا في مستوى الحد الأقصى (SOTA) على أربع معايير للتجزئة المرجعية للصور، وثلاث معايير للتجزئة المرجعية للفيديوهات.