HyperAIHyperAI
منذ 2 أشهر

شبكة الانتباه الذاتي متعددة الوسائط لتقسيم الصور المرجعية

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang
شبكة الانتباه الذاتي متعددة الوسائط لتقسيم الصور المرجعية
الملخص

نعتبر مشكلة تقسيم الصور بالرجوع. مع وجود صورة مدخل وتعبير بلغة طبيعية، الهدف هو تقسيم الكائن الذي يشير إليه التعبير اللغوي في الصورة. الأعمال الحالية في هذا المجال تتعامل مع التعبير اللغوي والمدخل الصوري بشكل منفصل في تمثيلاتها. فهي لا تلتقط بشكل كافٍ العلاقات طويلة المدى بين هذين النمطين. في هذه الورقة البحثية، نقترح وحدة انتباه ذاتي عبر الأنظمة (CMSA) التي تلتقط بفعالية الارتباطات طويلة المدى بين الخصائص اللغوية والبصرية. يمكن لنموذجنا التركيز بشكل متكيف على الكلمات المعلوماتية في التعبير الرجعي وعلى المناطق الهامة في الصورة المدخل. بالإضافة إلى ذلك، نقترح وحدة دمج متعددة المستويات ببوابات لدمج الخصائص عبر الأنظمة الذاتية الانتباه المرتبطة بمستويات مختلفة في الصورة بشكل اختياري. تقوم هذه الوحدة بتحكم تدفق المعلومات للخصائص عند مستويات مختلفة. نقوم بتقييم النهج المقترح على أربع مجموعات بيانات للتقييم. يتفوق النهج المقترح باستمرار على الأساليب المتقدمة الحالية.请注意,这里有一些术语的翻译:- 自注意力机制 (Self-Attention)- 跨模态 (Cross-Modal)- 门控多级融合模块 (Gated Multi-Level Fusion Module)为了确保信息的完整性,我保留了这些术语的英文注释。如果需要进一步调整或有特定的术语表,请告知。

شبكة الانتباه الذاتي متعددة الوسائط لتقسيم الصور المرجعية | أحدث الأوراق البحثية | HyperAI