HyperAIHyperAI

Command Palette

Search for a command to run...

EVP: إدراك بصري محسّن باستخدام تحسين مُعدّل للسمات متعددة الانتباه العكسي ومحاذاة صورة-نص منظمة

Mykola Lavreniuk Shariq Farooq Bhat Matthias Müller Peter Wonka

الملخص

تُقدّم هذه الدراسة معمارية الشبكة EVP (إي.في.بي: تحسين الإدراك البصري). تعتمد EVP على العمل السابق VPD، الذي فتح الطريق لاستخدام شبكة Stable Diffusion في المهام المتعلقة بvisión الحاسوبية. نقترح تحسينين رئيسيين. أولاً، نطوّر وحدة تحسين السمات العكسية المتعددة الانتباه (IMAFR)، التي تُعزّز قدرات تعلّم السمات من خلال تجميع المعلومات المكانية من المستويات العليا في الهرم. ثانيًا، نقترح وحدة جديدة للتوافق بين الصورة والنص لتحسين استخراج السمات من النواة الأساسية لشبكة Stable Diffusion. تُعدّ البنية الناتجة مناسبة لطائفة واسعة من المهام، ونُظهر أداؤها في سياق تقدير العمق من صورة واحدة باستخدام فكّ ترميز مخصص يعتمد على فئات تصنيفية، وكذلك في مهام التجزئة المرجعية باستخدام فك ترميز جاهز للعمل (off-the-shelf). أظهرت التجارب الشاملة التي أُجريت على مجموعات بيانات متعارف عليها أن EVP تحقق نتائج متقدمة في مجال تقدير العمق من صورة واحدة في البيئات الداخلية (NYU Depth v2، مع تحسين بنسبة 11.8% في جذر متوسط الخطأ التربيعي مقارنة بـ VPD) والخارجية (KITTI)، وكذلك في مهام التجزئة المرجعية (RefCOCO، مع تحسين بنسبة 2.53 في معامل IoU مقارنة بـ ReLA). تم إتاحة الكود والنماذج المُدرّبة مسبقًا بشكل عام عبر الرابط: https://github.com/Lavreniuk/EVP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp