HyperAIHyperAI
منذ 13 أيام

التحليل المرئي متعدد الوسائط للإشارة: مراجعة

Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang
التحليل المرئي متعدد الوسائط للإشارة: مراجعة
الملخص

يهدف التجزئة المرجعية متعددة الوسائط إلى فصل الكائنات المستهدفة في المشاهد البصرية، مثل الصور والفيديوهات والمشاهد ثلاثية الأبعاد، بناءً على تعبيرات مرجعية مكتوبة أو صوتية. ويُعد هذا المهمة حاسمة في التطبيقات العملية التي تتطلب فهمًا دقيقًا للكائنات استنادًا إلى تعليمات المستخدم. خلال العقد الماضي، أصبحت هذه المهمة محط اهتمام كبير في مجتمع الوسائط المتعددة، مدفوعة بالتقدم المحرز في الشبكات العصبية التلافيفية، ونماذج التحويل (Transformers)، والنمذج اللغوية الكبيرة، التي ساهمت جميعها بشكل كبير في تحسين قدرات التفسير متعدد الوسائط. يقدم هذا البحث مراجعة شاملة لبحث التجزئة المرجعية متعددة الوسائط. نبدأ بعرض الخلفية العلمية لهذا المجال، بما في ذلك تعريف المشكلة والDataset الشائعة الاستخدام. ثم نلخص بنية معمارية موحدة لتلك التجزئة المرجعية، ونستعرض الطرق البارزة في ثلاث مشاهد بصرية رئيسية، تشمل الصور، والفيديوهات، والمشاهد ثلاثية الأبعاد. كما نناقش منهجيات التعبير المرجعي العام (GREx) لمعالجة تحديات التعقيد في العالم الحقيقي، بالإضافة إلى المهام ذات الصلة والتطبيقات العملية. ونقدم أيضًا مقارنات أداء واسعة على معايير معيارية شائعة. ونواصل متابعة الأبحاث ذات الصلة من خلال الرابط التالي: https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.