HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة الانتباه الذاتي متعددة الوسائط لتقسيم الصور المرجعية

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang

الملخص

نعتبر مشكلة تقسيم الصور بالرجوع. مع وجود صورة مدخل وتعبير بلغة طبيعية، الهدف هو تقسيم الكائن الذي يشير إليه التعبير اللغوي في الصورة. الأعمال الحالية في هذا المجال تتعامل مع التعبير اللغوي والمدخل الصوري بشكل منفصل في تمثيلاتها. فهي لا تلتقط بشكل كافٍ العلاقات طويلة المدى بين هذين النمطين. في هذه الورقة البحثية، نقترح وحدة انتباه ذاتي عبر الأنظمة (CMSA) التي تلتقط بفعالية الارتباطات طويلة المدى بين الخصائص اللغوية والبصرية. يمكن لنموذجنا التركيز بشكل متكيف على الكلمات المعلوماتية في التعبير الرجعي وعلى المناطق الهامة في الصورة المدخل. بالإضافة إلى ذلك، نقترح وحدة دمج متعددة المستويات ببوابات لدمج الخصائص عبر الأنظمة الذاتية الانتباه المرتبطة بمستويات مختلفة في الصورة بشكل اختياري. تقوم هذه الوحدة بتحكم تدفق المعلومات للخصائص عند مستويات مختلفة. نقوم بتقييم النهج المقترح على أربع مجموعات بيانات للتقييم. يتفوق النهج المقترح باستمرار على الأساليب المتقدمة الحالية.请注意,这里有一些术语的翻译:- 自注意力机制 (Self-Attention)- 跨模态 (Cross-Modal)- 门控多级融合模块 (Gated Multi-Level Fusion Module)为了确保信息的完整性,我保留了这些术语的英文注释。如果需要进一步调整或有特定的术语表,请告知。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة الانتباه الذاتي متعددة الوسائط لتقسيم الصور المرجعية | مستندات | HyperAI