HyperAIHyperAI
منذ 2 أشهر

خصائص النص الواعية بالرؤية في تقسيم الصور المرجعي: من فهم الكائنات إلى فهم السياق

Hai Nguyen-Truong; E-Ro Nguyen; Tuan-Anh Vu; Minh-Triet Tran; Binh-Son Hua; Sai-Kit Yeung
خصائص النص الواعية بالرؤية في تقسيم الصور المرجعي: من فهم الكائنات إلى فهم السياق
الملخص

التمييز المرجعي للصورة هو مهمة صعبة تشمل إنشاء أقنعة تجزئة على مستوى البكسل بناءً على وصف بلغة طبيعية. تتزايد تعقيدات هذه المهمة مع تعقيد الجمل المقدمة. اعتمد الأساليب الحالية في الغالب على الخصائص البصرية لإنشاء أقنعة التجزئة، مع معاملة الخصائص النصية كعناصر مساعدة. ومع ذلك، فإن هذا الاستخدام غير الكافي لفهم النص يحد من قدرة النموذج على فهم التعبيرات المعطاة بشكل كامل. في هذا العمل، نقترح إطارًا جديدًا يركز بشكل خاص على فهم الأشياء والسياق مستوحى من العمليات الإدراكية البشرية من خلال خصائص النص الواعية بالرؤية (Vision-Aware Text Features). أولاً، نقدم وحدة أولوية CLIP لتحديد موقع الشيء الرئيسي محل الاهتمام ودمج خريطة حرارة الشيء في عملية تهيئة الاستفسار. ثانياً، نقترح مزيجًا من مكونين: مفكك متعدد الوسائط سياقي (Contextual Multimodal Decoder) وقيود التجانس الدلالي (Meaning Consistency Constraint)، لتعزيز التفسير المتناسق والمتسق للإشارات اللغوية مع الفهم السياقي المستمد من الصورة. حققت طريقتنا تحسينات في الأداء بشكل كبير على ثلاثة مجموعات بيانات مرجعية هي RefCOCO وRefCOCO+ وG-Ref. صفحة المشروع: \url{https://vatex.hkustvgd.com/}.

خصائص النص الواعية بالرؤية في تقسيم الصور المرجعي: من فهم الكائنات إلى فهم السياق | أحدث الأوراق البحثية | HyperAI