HyperAIHyperAI
منذ 2 أشهر

تعلم الميزات متعددة التفاعلات ومقاييس متعددة الوسائط على مدار الساعة لدمج الصور والتقسيم

Jinyuan Liu; Zhu Liu; Guanyao Wu; Long Ma; Risheng Liu; Wei Zhong; Zhongxuan Luo; Xin Fan
تعلم الميزات متعددة التفاعلات ومقاييس متعددة الوسائط على مدار الساعة لدمج الصور والتقسيم
الملخص

الدمج متعدد الوسائط وتقسيم الصور يلعبان دورًا حاسمًا في القيادة الذاتية وعمليات الروبوت. كانت الجهود المبكرة تركز على تعزيز الأداء لمهام واحدة فقط، مثل الدمج أو التقسيم، مما جعل من الصعب تحقيق "أفضل ما في العالمين". لتجاوز هذه المشكلة، نقترح في هذا البحث معمارية تعلم الخصائص متعددة التفاعلات للدمج والتقسيم الصوري، والتي نطلق عليها اسم SegMiF (Multi-interactive Feature learning architecture for image fusion and Segmentation)، واستغلال ارتباط المهمتين المزدوج لتعزيز أداء كلا المهمتين. تتكون SegMiF من هيكل متسلسل يحتوي على شبكة فرعية للدمج وشبكة فرعية شائعة الاستخدام للتقسيم. من خلال ربط السلس للخصائص الوسيطة بين المكونين، يمكن أن تساعد المعرفة المستفادة من مهمة التقسيم بشكل فعال في مهمة الدمج. كما أن الشبكة الفرعية المستفيدة من الدمج تدعم الشبكة الفرعية للتقسيم لأداء أفضل بكثير. بالإضافة إلى ذلك، تم إنشاء كتلة انتباه تفاعلية هرمية لضمان التعيين الدقيق لكافة المعلومات الحاسمة بين المهمتين، بحيث يمكن أن تكون الخصائص الوسائطية/الدلالية متفاعلة بالكامل. علاوة على ذلك، تم تقديم عامل وزن ديناميكي لتكييف الأوزان المرتبطة بكل مهمة بشكل آلي، مما يمكنه من موازنة التوافق بين الخصائص التفاعلية وكسر قيود التعديل الشاق. بالإضافة إلى ذلك، قمنا ببناء نظام تصوير ذكي متعدد الأمواج ومزدوج العيون وجمعنا معيارًا متعدد الوسائط يعمل طوال الوقت مع 15 فئة مستويات البكسل المشتركة للدمج والتقسيم الصوري. أظهرت التجارب الواسعة على عدة مجموعات بيانات عامة وعلى معيارنا الخاص أن الطريقة المقترحة تنتج صورًا مشتركة ذات جاذبية بصرية وتؤدي إلى زيادة بنسبة $7.66\%$ في تقسيم mIoU في السياق الحقيقي مقارنة بأحدث الأساليب المتقدمة. يمكن الحصول على الكود المصدر والمعيار من \url{https://github.com/JinyuanLiu-CV/SegMiF}.

تعلم الميزات متعددة التفاعلات ومقاييس متعددة الوسائط على مدار الساعة لدمج الصور والتقسيم | الأوراق البحثية | HyperAI