DGInStyle: التجزئة الدلالية القابلة للتعميم الحدودي باستخدام نماذج التمايز الصوري والتحكم بالشكل الدلالي

أظهرت النماذج الكبيرة المُدرّبة مسبقًا للانسيابية المتخيلة (LDMs) قدرة استثنائية على إنتاج محتوى إبداعي، والتخصص على بيانات المستخدم من خلال التدريب المحدود (few-shot fine-tuning)، وتحقيق التحكم في المخرجات وفقًا لسياقات متعددة، مثل الخرائط الدلالية. لكن، هل يمكن استخدامها كمُولّدات بيانات على نطاق واسع، مثلاً لتحسين المهام ضمن هيكل التوصّل (perception stack)، مثل التجزئة الدلالية؟ نستكشف هذا السؤال في سياق القيادة الذاتية، ونرد عليه بإيجابية قوية: "نعم". نقترح نموذجًا فعّالًا لمعالجة البيانات يُسمى DGInStyle. أولاً، ندرس مشكلة تخصيص نموذج LDM المُدرّب مسبقًا لتنفيذ توليد مُتحكم دلاليًا ضمن مجال ضيق. ثانيًا، نقترح تقنية "استبدال الأسلوب" (Style Swap) لتمكين المُسبّب التوليدي الغني بالتحكم الدلالي المُتعلم. ثالثًا، نصمم تقنية "دمج المُستويات المتعددة في الفضاء المتخيل" (Multi-resolution Latent Fusion) للتغلب على التحيّز الذي تُظهره نماذج LDM تجاه الكائنات السائدة. باستخدام DGInStyle، نُولّد مجموعة بيانات متنوعة من مشاهد الطرق، ونُدرّب نموذجًا للتجزئة الدلالية غير مُخصص لمنطقة معينة (domain-agnostic) عليها، ثم نقيّم الأداء على عدة مجموعات بيانات شهيرة للقيادة الذاتية. يُظهر نهجنا تحسينًا مستمرًا في أداء عدة طرق للعامة على المجالات (domain generalization) مقارنةً بالأساليب السابقة المُتقدمة. يُمكن الوصول إلى الكود المصدري ومجموعة البيانات المُولّدة عبر الرابط: https://dginstyle.github.io.