HyperAIHyperAI

Command Palette

Search for a command to run...

محاذاة النص والصورة للاستشعار القائم على الانتشار

Neehar Kondapaneni\textsuperscript1,* Markus Marks\textsuperscript1,* Manuel Knott\textsuperscript1,2,* Rogerio Guimaraes\textsuperscript1 Pietro Perona\textsuperscript1

الملخص

النماذج التفاضلية هي نماذج توليدية تتميز بقدرات مثيرة للإعجاب في تحويل النص إلى صورة، وقد أثارت موجة جديدة من الطرق الإبداعية لمهام التعلم الآلي الكلاسيكية. ومع ذلك، فإن أفضل طريقة لاستغلال المعرفة الحسية لهذه النماذج التوليدية في المهام البصرية لا تزال سؤالًا مفتوحًا. بشكل خاص، لم يتضح بعد كيفية استخدام واجهة الدفع عند تطبيق نوى التفاضل على المهام البصرية. لقد اكتشفنا أن العناوين التي يتم إنشاؤها تلقائيًا يمكن أن تحسن تناسق النص مع الصورة وتزيد بشكل كبير من خرائط الانتباه المتقاطع للنموذج، مما يؤدي إلى أداء حسي أفضل. يحسن نهجنا على الحالة الحالية لأفضل ما تم الوصول إليه (SOTA) في تقسيم المعنى باستخدام النماذج التفاضلية على ADE20K وعلى الحالة العامة لأفضل ما تم الوصول إليه (SOTA) في تقدير العمق على NYUv2. بالإضافة إلى ذلك، يعمم نهجنا على الإعداد بين المجالات. نستخدم تعديلات الشخصية والعناوين لتوفيق نموذجنا مع المجال المستهدف ونجد تحسينات على القواعد غير المتوفقة. يحقق نموذج الكشف عن الأشياء بين المجالات لدينا، الذي تم تدريبه على Pascal VOC، أفضل النتائج التي تم الوصول إليها (SOTA) على Watercolor2K. أما طريقة التقسيم بين المجالات لدينا، التي تم تدريبها على Cityscapes، فتحقيق أفضل النتائج التي تم الوصول إليها (SOTA) على Dark Zurich-val وNighttime Driving. صفحة المشروع: https://www.vision.caltech.edu/tadp/. الرمز البرمجي: https://github.com/damaggu/TADP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp