HyperAIHyperAI
منذ 2 أشهر

StitchFusion: تنسج أي وسائط بصرية لتعزيز التجزئة الدلالية متعددة الوسائط

Bingyu Li; Da Zhang; Zhiyuan Zhao; Junyu Gao; Xuelong Li
StitchFusion: تنسج أي وسائط بصرية لتعزيز التجزئة الدلالية متعددة الوسائط
الملخص

يظهر التجزئة الدلالية متعددة الوسائط إمكانات كبيرة في تحسين دقة التجزئة في المشاهد المعقدة. ومع ذلك، فإن الطرق الحالية غالباً ما تتضمن وحدات دمج ميزات متخصصة مصممة خصيصاً للوسائط المحددة، مما يقيّد مرونة الإدخال ويزيد من عدد المعلمات التدريبية. لمعالجة هذه التحديات، نقترح "StitchFusion"، وهو إطار بسيط ولكنه فعال للدمج بين الوسائط يقوم بدمج النماذج المدربة مسبقاً على نطاق واسع مباشرة كمشفرات ومدمجات للميزات. هذا النهج يسهل دمج الميزات متعددة الوسائط والمقاييس بشكل شامل، مع إمكانية التعامل مع أي إدخال بصري. وبشكل خاص، يتم تحقيق دمج الوسائط أثناء عملية الترميز من خلال مشاركة المعلومات البصرية متعددة الوسائط. لتعزيز تبادل المعلومات بين الوسائط، نقدم وحدة تكيف متعددة الاتجاهات (MultiAdapter) لتمكين نقل المعلومات عبر الوسائط أثناء عملية الترميز. عن طريق الاستفادة من MultiAdapter لنشر المعلومات المتعددة المقاييس عبر المشفرات المدربة مسبقاً أثناء عملية الترميز، يحقق StitchFusion دمج المعلومات البصرية متعددة الوسائط أثناء عملية الترميز. تُظهر التجارب المقارنة الشاملة أن نموذجنا يحقق أداءً رائدًا في أربع قواعد بيانات للتجزئة متعددة الوسائط مع زيادة طفيفة في عدد المعلمات الإضافية. علاوة على ذلك، فإن تكامل MultiAdapter مع وحدات دمج الميزات الحالية (FFMs) يؤكد طبيعتها المكملة. يمكن الحصول على شفرتنا البرمجية من StitchFusion_repo.