HyperAIHyperAI

Command Palette

Search for a command to run...

تحديد ثم تقسيم: خط أنابيب قوي لتقسيم الصور المرجعية

Ya Jing Tao Kong Wei Wang Liang Wang Lei Li Tieniu Tan

الملخص

يهدف تقسيم الصور المرجعي إلى تقسيم الأشياء التي تشير إليها عبارة لغوية طبيعية. غالباً ما تركز الطرق السابقة على تصميم آلية تفاعل ضمنية وتكرارية للدمج بين الخصائص البصرية واللغوية لإنتاج القناع التقسيمي النهائي مباشرة دون نمذجة المعلومات المكانية للحالات المرجعية بشكل صريح. لحل هذه المشكلات، ننظر إلى هذه المهمة من منظور آخر عبر فصلها إلى مخطط "تحديد الموقع ثم التقسيم" (LTS). عند تقديم عبارة لغوية، يميل الناس عموماً أولاً إلى التركيز على المناطق البصرية المستهدفة المقابلة، ثم إنتاج قناع تقسيمي دقيق حول الكائن بناءً على سياقه. يقوم LTS أولاً باستخراج ودمج الخصائص البصرية والنصية للحصول على تمثيل متعدد الوسائط، ثم يطبق تفاعلاً متعدداً للوسائط على الخصائص البصرية-النصية لتحديد موقع الكائن المرجعي باستخدام أولوية الموضع، وأخيراً ينتج النتيجة التقسيمية باستخدام شبكة تقسيم خفيفة الوزن. LTS بسيط ولكنه فعال بشكل مدهش. في ثلاثة مجموعات بيانات مرجعية شهيرة، حقق LTS تفوّقاً كبيراً على جميع الطرق الرائدة سابقًا (مثل +3.2% في RefCOCO+ و+3.4% في RefCOCOg). بالإضافة إلى ذلك، فإن نموذجنا أكثر قابلية للتفسير من خلال تحديد موقع الكائن بشكل صريح، وهو ما أثبتته التجارب التصورية. نعتقد أن هذا الإطار يعد واعداً ليكون أساساً قوياً لتقسيم الصور المرجعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحديد ثم تقسيم: خط أنابيب قوي لتقسيم الصور المرجعية | مستندات | HyperAI