HyperAIHyperAI
منذ 11 أيام

التموضع المقنع للقطع الصورية المرجعية

Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang
التموضع المقنع للقطع الصورية المرجعية
الملخص

التقسيم المرجعي للصورة (RIS) هو مهمة صعبة تتطلب من الخوارزمية تقسيم الكائنات المشار إليها عبر تعبيرات لغوية غير محددة الشكل. وعلى الرغم من التقدم الكبير الذي أُحرز في السنوات الأخيرة، لا تزال معظم الطرق الرائدة (SOTA) تعاني من فجوة كبيرة بين الوسائط اللغوية والبصرية على مستويي البكسل والكلمة. وغالبًا ما تعتمد هذه الطرق على ميزات لغوية على مستوى الجملة لمحاذاة اللغة والصورة، كما أنها تفتقر إلى إشراف تدريبي صريح لتحديد الموضع البصري الدقيق (fine-grained visual grounding). ونتيجة لذلك، تُظهر هذه الطرق تطابقًا ضعيفًا على مستوى الكائن بين الميزات البصرية واللغوية. وبغياب ميزات مُحددة جيدًا، تواجه الطرق السابقة صعوبة في فهم التعبيرات المعقدة التي تتطلب استنتاجًا قويًا حول العلاقات بين عدة كائنات، خاصة عند التعامل مع عبارات نادرة الاستخدام أو غامضة. لمعالجة هذه التحديات، نقدم مهمة جديدة تُسمى "تحديد الموضع بالقناع" (Mask Grounding)، والتي تُحسّن بشكل كبير من عملية تحديد الموضع البصري داخل الميزات اللغوية، من خلال تعليم النموذج بشكل صريح على إقامة علاقة دقيقة بين الرموز النصية المقنعة (masked textual tokens) والكائنات البصرية المطابقة لها. يمكن استخدام مهمة "تحديد الموضع بالقناع" مباشرة مع الطرق السابقة لـ RIS، وتعمل بشكل متسق على تحسين أدائها. علاوةً على ذلك، ولمعالجة الفجوة بين الوسائط بشكل شامل، صممنا أيضًا دالة محاذاة بين الوسائط، ووحدة محاذاة مصاحبة. تعمل هذه الإضافات بشكل تآزري مع مهمة "تحديد الموضع بالقناع". وباستخدام جميع هذه التقنيات، تؤدي منهجيتنا الشاملة إلى بناء معمارية تُسمى MagNet (شبكة مدعومة بتحديد الموضع بالقناع)، والتي تتفوق بشكل ملحوظ على الطرق السابقة في ثلاث معايير رئيسية (RefCOCO، RefCOCO+، وG-Ref)، مما يُظهر فعالية منهجيتنا في التغلب على القيود الحالية في خوارزميات RIS. سيتم إصدار كودنا وأوزان النموذج المُدرّب مسبقًا.

التموضع المقنع للقطع الصورية المرجعية | أحدث الأوراق البحثية | HyperAI