تفاعلات متعددة الوسائط شاملة لتقسيم الصور المرجعية

نستعرض في هذه الدراسة مسألة التجزئة المرجعية للصورة (RIS)، التي تُنتج خريطة تجزئة تتوافق مع الوصف باللغة الطبيعية. وتتطلب معالجة مسألة RIS بكفاءة أخذ التفاعلات التي تحدث بين الوسائط البصرية واللغوية، فضلاً عن التفاعلات داخل كل وسائط على حدة في الاعتبار. تُعد الطرق الحالية محدودة، إذ إما أنها تحسب أشكالاً مختلفة من التفاعلات تباعاً (مما يؤدي إلى تراكم الأخطاء)، أو تتجاهل التفاعلات داخل الوسائط. وللتغلب على هذه المحدودية، نقترح أداء جميع التفاعلات الثلاثة في وقت واحد من خلال وحدة دمج متعددة الوسائط متزامنة (SFM). علاوةً على ذلك، لتقديم أقنعة تجزئة محسّنة، نُقدّم وحدة تجميع صريحة هرمية متعددة الوسائط جديدة (HCAM)، حيث تُسهم السمات اللغوية في تبادل المعلومات السياقية عبر الهرم البصري. ونُقدّم دراسات تحليلية مفصلة، ونُثبت أداء منهجنا على أربع مجموعات بيانات معيارية، مُظهرين مكاسب أداء ملحوظة مقارنة بالأساليب الحالية المتفوقة (SOTA).