HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل التصويري المرجعي عبر الفهم التدرجي عبر الوسائط المتعددة

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

الملخص

يهدف التجزئة المرتبطة بالصورة إلى فصل أقنعة الكائنات الأمامية للعناصر التي تتطابق بشكل جيد مع الوصف المذكور في التعبير باللغة الطبيعية. وقد سعى النهج السابقة لحل هذه المشكلة باستخدام تفاعل ودمج غير مباشر بين الوسائط البصرية واللغوية، لكنها غالبًا ما تفشل في استغلال الكلمات المفيدة في التعبير لتوحيد الميزات من الوسائط المختلفة بشكل دقيق لتحديد الكائن المُشار إليه. في هذا البحث، نقترح وحدة فهم متعدد الوسائط تدريجيًا (CMPC) ووحدة تبادل الميزات الموجهة بالنص (TGFE) لمعالجة هذه المهمة الصعبة بشكل فعّال. بشكل محدد، تستخدم وحدة CMPC أولاً كلمات الكائن والصفات لاستشعار جميع الكائنات المرتبطة التي قد يُقصد بها التعبير. ثم تُستخدم كلمات العلاقة لتمييز الكائن الصحيح وقمع الكائنات الأخرى غير ذات الصلة من خلال استدلال رسومي متعدد الوسائط. بالإضافة إلى وحدة CMPC، نستخدم أيضًا وحدة TGFE البسيطة ولكن الفعّالة لدمج الميزات المتعددة الوسائط المستندة إلى الاستدلال من مستويات مختلفة، وذلك بمراعاة المعلومات النصية. وبهذه الطريقة، يمكن للميزات من المستويات المختلفة التفاعل مع بعضها البعض وتحسين دقتها بناءً على السياق النصي. وقد أجرينا تجارب واسعة على أربع معايير شائعة لتجزئة الإشارة، وحققنا أداءً متفوقًا على الأداء الحالي في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp