التحليل المرجعي للصور والفيديوهات باستخدام شبكة الانتباه الذاتي عبر الوسائط

نُعالج مشكلة التجزئة المرجعية في الصور والفيديوهات باستخدام اللغة الطبيعية. بالنظر إلى صورة (أو فيديو) دخلية وتعبير مرجعي، يكون الهدف هو تجزئة الكيان المُشار إليه بالتعبير داخل الصورة أو الفيديو. في هذه الورقة، نقترح وحدة انتباه ذاتي عبر الوسائط (CMSA) لاستغلال التفاصيل الدقيقة لكل كلمة وداخل الصورة أو الفيديو المدخل، والتي تُمكّن من التقاط الاعتماديات الطويلة المدى بين السمات اللغوية والبصرية بشكل فعّال. يمكن لنموذجنا التركيز تلقائيًا على الكلمات المفيدة في التعبير المرجعي والمناطق المهمة في المدخل البصري. كما نقترح وحدة دمج متعددة المستويات ذات بوابة (GMLF) لدمج مُميّزات الانتباه الذاتي عبر الوسائط بشكل انتقائي، وفقًا للمستويات المختلفة للسمات البصرية. تُتحكم هذه الوحدة في دمج السمات لتدفق المعلومات عند المستويات المختلفة باستخدام معلومات ذاتية وذاتية المستوى العالي والمنخفض المرتبطة بكلمات مُنتبهة مختلفة. علاوةً على ذلك، نقدّم وحدة انتباه ذاتي عبر الإطارات (CFSA) لدمج المعلومات الزمنية في الإطارات المتتالية بشكل فعّال، مما يوسع نطاق تطبيق طريقة العمل في حالة التجزئة المرجعية بالفيديوهات. وقد أظهرت التجارب على مجموعات بيانات معيارية لأربعة مجموعات بيانات للصور المرجعية، واثنتين من مجموعات بيانات تجزئة الممثلين والإجراءات في الفيديوهات، باستمرار أن النهج المقترح يتفوق على الطرق الأفضل المتوفرة حاليًا.