HyperAIHyperAI

Command Palette

Search for a command to run...

DGInStyle: التجزئة الدلالية القابلة للتعميم الحدودي باستخدام نماذج التمايز الصوري والتحكم بالشكل الدلالي

Yuru Jia Lukas Hoyer Shengyu Huang Tianfu Wang Luc Van Gool Konrad Schindler Anton Obukhov

الملخص

أظهرت النماذج الكبيرة المُدرّبة مسبقًا للانسيابية المتخيلة (LDMs) قدرة استثنائية على إنتاج محتوى إبداعي، والتخصص على بيانات المستخدم من خلال التدريب المحدود (few-shot fine-tuning)، وتحقيق التحكم في المخرجات وفقًا لسياقات متعددة، مثل الخرائط الدلالية. لكن، هل يمكن استخدامها كمُولّدات بيانات على نطاق واسع، مثلاً لتحسين المهام ضمن هيكل التوصّل (perception stack)، مثل التجزئة الدلالية؟ نستكشف هذا السؤال في سياق القيادة الذاتية، ونرد عليه بإيجابية قوية: "نعم". نقترح نموذجًا فعّالًا لمعالجة البيانات يُسمى DGInStyle. أولاً، ندرس مشكلة تخصيص نموذج LDM المُدرّب مسبقًا لتنفيذ توليد مُتحكم دلاليًا ضمن مجال ضيق. ثانيًا، نقترح تقنية "استبدال الأسلوب" (Style Swap) لتمكين المُسبّب التوليدي الغني بالتحكم الدلالي المُتعلم. ثالثًا، نصمم تقنية "دمج المُستويات المتعددة في الفضاء المتخيل" (Multi-resolution Latent Fusion) للتغلب على التحيّز الذي تُظهره نماذج LDM تجاه الكائنات السائدة. باستخدام DGInStyle، نُولّد مجموعة بيانات متنوعة من مشاهد الطرق، ونُدرّب نموذجًا للتجزئة الدلالية غير مُخصص لمنطقة معينة (domain-agnostic) عليها، ثم نقيّم الأداء على عدة مجموعات بيانات شهيرة للقيادة الذاتية. يُظهر نهجنا تحسينًا مستمرًا في أداء عدة طرق للعامة على المجالات (domain generalization) مقارنةً بالأساليب السابقة المُتقدمة. يُمكن الوصول إلى الكود المصدري ومجموعة البيانات المُولّدة عبر الرابط: https://dginstyle.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp