HyperAIHyperAI

Command Palette

Search for a command to run...

الاستيعاب التدرجي عبر الوسائط للتقسيم المرجعي

Si Liu Tianrui Hui Shaofei Huang Yunchao Wei Bo Li Guanbin Li

الملخص

بالنظر إلى تعبير بلغة طبيعية وصورة/فيديو، يهدف التجزئة المرجعية إلى إنتاج أقنعة على مستوى البكسل للكيانات الموصوفة بواسطة الفاعل في التعبير. تتناول الطرق السابقة هذه المشكلة من خلال تفاعل ودمج خصائص غير صريحة بين الوسائط البصرية واللغوية بطريقة واحدة المرحلة. ومع ذلك، يميل الإنسان إلى حل مشكلة التجزئة المرجعية بطريقة تدريجية تعتمد على الكلمات المفيدة في التعبير، أي أولاً تحديد كيانات مرشحة بشكل تقريبي، ثم التمييز بين الكيان المستهدف. في هذه الورقة، نقترح مخططًا تدريجيًا متعدد الوسائط للفهم (CMPC) لمحاكاة فعالة للسلوك البشري، ونُطبّقه كوحدة CMPC-I (للمستندات الصورية) ووحدة CMPC-V (للمستندات المرئية) لتحسين نماذج التجزئة المرجعية للصور والفيديوهات. بالنسبة للبيانات الصورية، تستخدم وحدة CMPC-I أولاً كلمات الكيان والصفات لاستشعار جميع الكيانات المرتبطة التي قد يُقصد بها التعبير. ثم تُستخدم كلمات العلاقات لتمييز الكيان المستهدف وقمع الكيانات غير ذات صلة الأخرى من خلال استدلال رسم بياني مكاني. أما بالنسبة للبيانات المرئية، فإن وحدة CMPC-V تُعمّق الاستفادة من كلمات الفعل استنادًا إلى CMPC-I لتمييز الكيان الصحيح المتوافق مع مؤشرات الفعل من خلال استدلال رسم بياني زمني. بالإضافة إلى مخطط CMPC، نُقدّم أيضًا وحدة بسيطة وفعّالة تُسمى "تبادل الميزات الموجهة بالنص" (TGFE) لدمج الخصائص متعددة الوسائط التي تم استخلاصها على مستويات مختلفة في الهيكل البصري، وذلك تحت إشراف المعلومات النصية. وبهذا، يمكن للخصائص متعددة المستويات التفاعل مع بعضها البعض وتحسين بعضها البعض بناءً على السياق النصي. وبدمج CMPC-I أو CMPC-V مع TGFE، يمكن بناء إطار عمل للتجزئة المرجعية للصور أو الفيديوهات، والذي حقق أداءً جديدًا في مستوى الحد الأقصى (SOTA) على أربع معايير للتجزئة المرجعية للصور، وثلاث معايير للتجزئة المرجعية للفيديوهات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستيعاب التدرجي عبر الوسائط للتقسيم المرجعي | مستندات | HyperAI