HyperAIHyperAI

Command Palette

Search for a command to run...

استغلال نماذج الانتشار للإدراك البصري باستخدام موجهات متعددة

Qiang Wan Zilong Huang Bingyi Kang Jiashi Feng Li Zhang

الملخص

تُعدّ مشكلة التدريب المسبق التوليدي لنموذج الرؤية قضية معقدة ومستمرة منذ فترة طويلة. في الوقت الراهن، تُظهر نماذج التشتت النصية إلى الصورة (T2I) كفاءة متميزة في إنتاج صور عالية الدقة تتماشى مع المدخلات النصية، وهي إمكانية ممكنة بفضل تدريبها المسبق على أزواج ضخمة من الصور والنصوص. هذا يطرح سؤالاً طبيعياً: هل يمكن استخدام نماذج التشتت لمعالجة مهام إدراك البصر؟ في هذه الورقة، نقترح خطة بسيطة وفعالة لاستخدام نموذج التشتت في مهام إدراك البصر. يكمن رؤيتنا الأساسية في إدخال تضمينات قابلة للتعلم (تسمى "مُحفِّزات ماكرو" أو meta prompts) إلى النماذج المُدرَّبة مسبقًا على التشتت، بهدف استخراج سمات مناسبة لمهام الإدراك. تُظهر مُحفِّزات ماكرو تأثيرين رئيسيين. أولاً، بوصفها بديلًا مباشرًا للتمثيلات النصية في نماذج T2I، يمكنها تفعيل السمات ذات الصلة بالمهام أثناء عملية استخراج السمات. ثانيًا، سيتم استخدامها لإعادة ترتيب السمات المستخرجة، لضمان تركيز النموذج على السمات الأكثر صلة بالمهام الحالية. بالإضافة إلى ذلك، قمنا بتصميم استراتيجية تدريب تكرارية للتحسين، والتي تستغل بالكامل خاصية نماذج التشتت، مما يؤدي إلى استخلاص سمات بصرية أقوى. وقد أثبتت تجارب واسعة عبر مجموعة متنوعة من المعايير فعالية نهجنا. فقد حقق النهج المُقترح أرقامًا قياسية جديدة في مهام تقدير العمق على مجموعتي بيانات NYU Depth V2 وKITTI، وفي مهمة التجزئة الدلالية على مدينة CityScapes. وفي الوقت نفسه، تحقق الطريقة المقترحة نتائج مماثلة للحالة الراهنة من التقدم في مجال التجزئة الدلالية على مجموعة بيانات ADE20K، وفي تقدير الوضع (pose estimation) على مجموعة بيانات COCO، مما يُبرز بوضوح متانتها وتنوعها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp