HyperAIHyperAI
منذ 17 أيام

العشوائية النسيجية العالمية والمحليّة للترجمة من التصنيف الدلالي الاصطناعي إلى الحقيقي

Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, Jun Liu
العشوائية النسيجية العالمية والمحليّة للترجمة من التصنيف الدلالي الاصطناعي إلى الحقيقي
الملخص

الترميز الدلالي للصورة (Semantic Segmentation) هو مهمة أساسية في فهم الصور، حيث يتم تصنيف كل بكسل في الصورة إلى تصنيف مطابق. وبما أن التصنيف اليدوي لكل بكسل بالنسبة للبيانات الحقيقية (ground-truth) هو عمل ممل وشاق، فإن العديد من الدراسات العملية تعتمد على الصور الاصطناعية لتدريب النموذج على تحليل الصور الواقعية، أي ما يُعرف بـ "الترميز الدلالي من الصور الاصطناعية إلى الواقعية" (Synthetic-to-Real Semantic Segmentation - SRSS). ومع ذلك، فإن الشبكات العصبية العميقة ذات التحويلات التلافيفية العميقة (Deep Convolutional Neural Networks - CNNs)، التي تُدرّب على بيانات صور اصطناعية مصدرية، قد لا تُظهر أداءً جيدًا عند تطبيقها على بيانات واقعية مستهدفة. في هذا العمل، نقترح آلتين بسيطتين ولكن فعّالتين لتعديل النسيج (Texture Randomization)، وهما: "عشوائية النسيج العالمية" (Global Texture Randomization - GTR) و"عشوائية النسيج المحلية" (Local Texture Randomization - LTR)، وذلك لتعزيز التعميم بين المجالات (Domain Generalization) في سياق SRSS. تهدف GTR إلى تغيير نسيج الصور المصدرية إلى أنماط نسيجية غير واقعية متنوعة، بهدف تقليل اعتماد الشبكة على خصائص النسيج، وتشجيع تعلّم سمات غير مُتعلقة بالمجال (domain-invariant cues). وبالإضافة إلى ذلك، لاحظنا أن الفرق في النسيج لا يحدث دائمًا على مستوى الصورة بأكملها، بل قد يقتصر على مناطق محلية معينة. لذا، قمنا بتطوير آلية LTR لتوليد مناطق محلية متنوعة، بهدف تطبيق تأثيرات نسيجية جزئية على الصور المصدرية. وأخيرًا، نُطبّق تنظيمًا يُسمى "الاتساق بين GTR وLTR" (Consistency between GTR and LTR - CGL)، بهدف تحقيق توازن وتنسيق بين الآليتين أثناء التدريب. أظهرت التجارب الواسعة على خمسة مجموعات بيانات متاحة علنًا (GTA5، SYNTHIA، Cityscapes، BDDS، وMapillary) وفي مختلف إعدادات SRSS (مثل GTA5/SYNTHIA إلى Cityscapes/BDDS/Mapillary) أن الطريقة المقترحة تتفوّق على أحدث الطرق في مجال التعميم بين المجالات لتطبيق SRSS.