الترقيم البصري متعدد المهام مع قيود التوافق الخشنة إلى الدقيقة

الترقيم البصري متعدد المهام ينطوي على تنفيذ مزامنة للتوضيح والتقطيع في الصور بناءً على التعبيرات النصية. تركز معظم الطرق المتقدمة بشكل أساسي على دمج متعدد الوسائط المستند إلى نماذج التحويل (transformer)، بهدف استخراج تمثيلات متعددة الوسائط قوية. ومع ذلك، فإن الغموض بين فهم التعبيرات الإشارية (REC) وتقطيع الصور الإشارية (RIS) يعرض العملية للأخطاء، مما يؤدي إلى عدم اتساق في التنبؤات متعددة المهام. بالإضافة إلى ذلك، فإن الفهم غير الكافي للوسائط المتعددة يساهم مباشرة في إدراك الأهداف المتحيزة. لتجاوز هذه التحديات، نقترح هندسة تقييدات الاتساق من الخشن إلى الدقيق للترقيم البصري ($\text{C}^3\text{VG}$)، والتي تدمج نهجًا ضمنيًا وصريحًا ضمن إطار عمل ذو مرحلتين. في البداية، يتم استخدام مفككي الاستفسار والبكسيل لإنتاج نتائج أولية للتوضيح والتقطيع، وهي عملية تُعرف بمرحلة الإدراك الدلالي الخشن (RSP). يتم تحسين هذه التوقعات الخشنة بعد ذلك من خلال وحدة التفاعل الموجهة بالقناع (MIM) وخسارة اتساق ثنائية الاتجاه صريحة جديدة لضمان تمثيلات متسقة عبر المهام، والتي نطلق عليها مرحلة التفاعل الدقيق للاتساق (RCI). علاوة على ذلك، لمعالجة تحدي الفهم غير الكافي للوسائط المتعددة، نستفيد من النماذج المدربة مسبقًا المستندة إلى تمثيلات الاندماج البصري-اللغوي. أثبتت التقييمات التجريبية على مجموعات البيانات RefCOCO وRefCOCO+ وRefCOCOg فعالية وسلامة $\text{C}^3\text{VG}$، حيث حققت أداءً أفضل بكثير من أفضل طرق REC وRIS الحالية بمعدل كبير. سيتم توفير الرمز والنموذج في \url{https://github.com/Dmmm1997/C3VG}.