HyperAIHyperAI
منذ 11 أيام

التحليل التصويري المرجعي عبر الفهم التدرجي عبر الوسائط المتعددة

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li
التحليل التصويري المرجعي عبر الفهم التدرجي عبر الوسائط المتعددة
الملخص

يهدف التجزئة المرتبطة بالصورة إلى فصل أقنعة الكائنات الأمامية للعناصر التي تتطابق بشكل جيد مع الوصف المذكور في التعبير باللغة الطبيعية. وقد سعى النهج السابقة لحل هذه المشكلة باستخدام تفاعل ودمج غير مباشر بين الوسائط البصرية واللغوية، لكنها غالبًا ما تفشل في استغلال الكلمات المفيدة في التعبير لتوحيد الميزات من الوسائط المختلفة بشكل دقيق لتحديد الكائن المُشار إليه. في هذا البحث، نقترح وحدة فهم متعدد الوسائط تدريجيًا (CMPC) ووحدة تبادل الميزات الموجهة بالنص (TGFE) لمعالجة هذه المهمة الصعبة بشكل فعّال. بشكل محدد، تستخدم وحدة CMPC أولاً كلمات الكائن والصفات لاستشعار جميع الكائنات المرتبطة التي قد يُقصد بها التعبير. ثم تُستخدم كلمات العلاقة لتمييز الكائن الصحيح وقمع الكائنات الأخرى غير ذات الصلة من خلال استدلال رسومي متعدد الوسائط. بالإضافة إلى وحدة CMPC، نستخدم أيضًا وحدة TGFE البسيطة ولكن الفعّالة لدمج الميزات المتعددة الوسائط المستندة إلى الاستدلال من مستويات مختلفة، وذلك بمراعاة المعلومات النصية. وبهذه الطريقة، يمكن للميزات من المستويات المختلفة التفاعل مع بعضها البعض وتحسين دقتها بناءً على السياق النصي. وقد أجرينا تجارب واسعة على أربع معايير شائعة لتجزئة الإشارة، وحققنا أداءً متفوقًا على الأداء الحالي في هذا المجال.

التحليل التصويري المرجعي عبر الفهم التدرجي عبر الوسائط المتعددة | أحدث الأوراق البحثية | HyperAI