تحديد ثم تقسيم: خط أنابيب قوي لتقسيم الصور المرجعية

يهدف تقسيم الصور المرجعي إلى تقسيم الأشياء التي تشير إليها عبارة لغوية طبيعية. غالباً ما تركز الطرق السابقة على تصميم آلية تفاعل ضمنية وتكرارية للدمج بين الخصائص البصرية واللغوية لإنتاج القناع التقسيمي النهائي مباشرة دون نمذجة المعلومات المكانية للحالات المرجعية بشكل صريح. لحل هذه المشكلات، ننظر إلى هذه المهمة من منظور آخر عبر فصلها إلى مخطط "تحديد الموقع ثم التقسيم" (LTS). عند تقديم عبارة لغوية، يميل الناس عموماً أولاً إلى التركيز على المناطق البصرية المستهدفة المقابلة، ثم إنتاج قناع تقسيمي دقيق حول الكائن بناءً على سياقه. يقوم LTS أولاً باستخراج ودمج الخصائص البصرية والنصية للحصول على تمثيل متعدد الوسائط، ثم يطبق تفاعلاً متعدداً للوسائط على الخصائص البصرية-النصية لتحديد موقع الكائن المرجعي باستخدام أولوية الموضع، وأخيراً ينتج النتيجة التقسيمية باستخدام شبكة تقسيم خفيفة الوزن. LTS بسيط ولكنه فعال بشكل مدهش. في ثلاثة مجموعات بيانات مرجعية شهيرة، حقق LTS تفوّقاً كبيراً على جميع الطرق الرائدة سابقًا (مثل +3.2% في RefCOCO+ و+3.4% في RefCOCOg). بالإضافة إلى ذلك، فإن نموذجنا أكثر قابلية للتفسير من خلال تحديد موقع الكائن بشكل صريح، وهو ما أثبتته التجارب التصورية. نعتقد أن هذا الإطار يعد واعداً ليكون أساساً قوياً لتقسيم الصور المرجعية.