شبكة تعزيز السمات المكملة مع محول الرؤية للإزالة التلقائية للضباب من الصور

تواجه نماذج إزالة الضباب المستندة إلى الشبكات العصبية التلافيفية التقليدية مشكلتين أساسيتين: هيكلية إزالة الضباب (محدودة في القدرة على التفسير)، وطبقات التلافيف (مستقلة عن المحتوى، وغير فعّالة في تعلم معلومات الاعتماد على المسافات الطويلة). في هذه الورقة، نقترح أولًا إطارًا جديدًا مُعزَّزًا بالميزات المكملة، حيث تُتعلم الميزات المكملة من خلال عدة مهام فرعية مكملة، ثم تُستخدم معًا لتعزيز أداء المهمة الأساسية. إحدى المزايا البارزة لهذا الإطار الجديد هي أن المهام المكملة المختارة بوعي يمكنها التركيز على تعلم ميزات مكملة ضعيفة الاعتماد، مما يتجنب التعلم المتكرر وغير الفعّال في الشبكات. وقد صممنا شبكة جديدة لإزالة الضباب بناءً على هذا الإطار. وبشكل خاص، اخترنا تفكيك الصورة الذاتية كمهام فرعية مكملة، حيث تُستخدم مهام تنبؤ الانعكاس والظلال لاستخراج ميزات مكملة مبنية على الألوان والتركيبات النسيجية. وللتوصل بكفاءة إلى هذه الميزات المكملة، قمنا بتطوير وحدة اختيار الميزات المكملة (CFSM) لاختيار الميزات الأكثر فائدة لعملية إزالة الضباب. علاوةً على ذلك، قدمنا نسخة جديدة من وحدة نموذج التحول البصري، تُسمى التحول البصري الهجين المحلي-العالمي (HyLoG-ViT)، ودمجناها داخل شبكات إزالة الضباب لدينا. تتألف وحدة HyLoG-ViT من مسارين: مسار التحول البصري المحلي ومسار التحول البصري العالمي، وهما مسؤولان عن استخلاص الاعتماد المحلي والاعتماد العالمي. وبهذا، يُضفي HyLoG-ViT طابعًا محليًا على الشبكة، ويُمكّنها من التقاط الاعتماد العالمي والبعيد. وقد أظهرت التجارب الواسعة في مهام إزالة الضباب المتجانسة وغير المتجانسة، وكذلك في مهام إزالة الضباب ليلاً، أن الشبكة المقترحة لإزالة الضباب يمكنها تحقيق أداءً مماثلًا أو حتى أفضل من نماذج إزالة الضباب القائمة على الشبكات العصبية التلافيفية.