HyperAIHyperAI

Command Palette

Search for a command to run...

تفاعلات متعددة الوسائط شاملة لتقسيم الصور المرجعية

Kanishk Jain Vineet Gandhi

الملخص

نستعرض في هذه الدراسة مسألة التجزئة المرجعية للصورة (RIS)، التي تُنتج خريطة تجزئة تتوافق مع الوصف باللغة الطبيعية. وتتطلب معالجة مسألة RIS بكفاءة أخذ التفاعلات التي تحدث بين الوسائط البصرية واللغوية، فضلاً عن التفاعلات داخل كل وسائط على حدة في الاعتبار. تُعد الطرق الحالية محدودة، إذ إما أنها تحسب أشكالاً مختلفة من التفاعلات تباعاً (مما يؤدي إلى تراكم الأخطاء)، أو تتجاهل التفاعلات داخل الوسائط. وللتغلب على هذه المحدودية، نقترح أداء جميع التفاعلات الثلاثة في وقت واحد من خلال وحدة دمج متعددة الوسائط متزامنة (SFM). علاوةً على ذلك، لتقديم أقنعة تجزئة محسّنة، نُقدّم وحدة تجميع صريحة هرمية متعددة الوسائط جديدة (HCAM)، حيث تُسهم السمات اللغوية في تبادل المعلومات السياقية عبر الهرم البصري. ونُقدّم دراسات تحليلية مفصلة، ونُثبت أداء منهجنا على أربع مجموعات بيانات معيارية، مُظهرين مكاسب أداء ملحوظة مقارنة بالأساليب الحالية المتفوقة (SOTA).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp