Command Palette
Search for a command to run...
StitchFusion: تنسج أي وسائط بصرية لتعزيز التجزئة الدلالية متعددة الوسائط
StitchFusion: تنسج أي وسائط بصرية لتعزيز التجزئة الدلالية متعددة الوسائط
Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li
الملخص
يظهر التجزئة الدلالية متعددة الوسائط إمكانات كبيرة في تحسين دقة التجزئة في المشاهد المعقدة. ومع ذلك، فإن الطرق الحالية غالباً ما تتضمن وحدات دمج ميزات متخصصة مصممة خصيصاً للوسائط المحددة، مما يقيّد مرونة الإدخال ويزيد من عدد المعلمات التدريبية. لمعالجة هذه التحديات، نقترح "StitchFusion"، وهو إطار بسيط ولكنه فعال للدمج بين الوسائط يقوم بدمج النماذج المدربة مسبقاً على نطاق واسع مباشرة كمشفرات ومدمجات للميزات. هذا النهج يسهل دمج الميزات متعددة الوسائط والمقاييس بشكل شامل، مع إمكانية التعامل مع أي إدخال بصري. وبشكل خاص، يتم تحقيق دمج الوسائط أثناء عملية الترميز من خلال مشاركة المعلومات البصرية متعددة الوسائط. لتعزيز تبادل المعلومات بين الوسائط، نقدم وحدة تكيف متعددة الاتجاهات (MultiAdapter) لتمكين نقل المعلومات عبر الوسائط أثناء عملية الترميز. عن طريق الاستفادة من MultiAdapter لنشر المعلومات المتعددة المقاييس عبر المشفرات المدربة مسبقاً أثناء عملية الترميز، يحقق StitchFusion دمج المعلومات البصرية متعددة الوسائط أثناء عملية الترميز. تُظهر التجارب المقارنة الشاملة أن نموذجنا يحقق أداءً رائدًا في أربع قواعد بيانات للتجزئة متعددة الوسائط مع زيادة طفيفة في عدد المعلمات الإضافية. علاوة على ذلك، فإن تكامل MultiAdapter مع وحدات دمج الميزات الحالية (FFMs) يؤكد طبيعتها المكملة. يمكن الحصول على شفرتنا البرمجية من StitchFusion_repo.