HyperAIHyperAI

Command Palette

Search for a command to run...

StitchFusion: تنسج أي وسائط بصرية لتعزيز التجزئة الدلالية متعددة الوسائط

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

الملخص

يظهر التجزئة الدلالية متعددة الوسائط إمكانات كبيرة في تحسين دقة التجزئة في المشاهد المعقدة. ومع ذلك، فإن الطرق الحالية غالباً ما تتضمن وحدات دمج ميزات متخصصة مصممة خصيصاً للوسائط المحددة، مما يقيّد مرونة الإدخال ويزيد من عدد المعلمات التدريبية. لمعالجة هذه التحديات، نقترح "StitchFusion"، وهو إطار بسيط ولكنه فعال للدمج بين الوسائط يقوم بدمج النماذج المدربة مسبقاً على نطاق واسع مباشرة كمشفرات ومدمجات للميزات. هذا النهج يسهل دمج الميزات متعددة الوسائط والمقاييس بشكل شامل، مع إمكانية التعامل مع أي إدخال بصري. وبشكل خاص، يتم تحقيق دمج الوسائط أثناء عملية الترميز من خلال مشاركة المعلومات البصرية متعددة الوسائط. لتعزيز تبادل المعلومات بين الوسائط، نقدم وحدة تكيف متعددة الاتجاهات (MultiAdapter) لتمكين نقل المعلومات عبر الوسائط أثناء عملية الترميز. عن طريق الاستفادة من MultiAdapter لنشر المعلومات المتعددة المقاييس عبر المشفرات المدربة مسبقاً أثناء عملية الترميز، يحقق StitchFusion دمج المعلومات البصرية متعددة الوسائط أثناء عملية الترميز. تُظهر التجارب المقارنة الشاملة أن نموذجنا يحقق أداءً رائدًا في أربع قواعد بيانات للتجزئة متعددة الوسائط مع زيادة طفيفة في عدد المعلمات الإضافية. علاوة على ذلك، فإن تكامل MultiAdapter مع وحدات دمج الميزات الحالية (FFMs) يؤكد طبيعتها المكملة. يمكن الحصول على شفرتنا البرمجية من StitchFusion_repo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp