HyperAIHyperAI

Command Palette

Search for a command to run...

الكشف البسيط عن الأشياء ذات المفردات المفتوحة باستخدام متحولات الرؤية

الملخص

الجمع بين الهندسات البسيطة والتدريب المسبق على نطاق واسع قد أدى إلى تحسينات كبيرة في تصنيف الصور. بالنسبة للكشف عن الأهداف، فإن نهج التدريب المسبق والتوسع أقل تطورًا، خاصة في الإعداد ذي الذيل الطويل والمفردات المفتوحة، حيث تكون بيانات التدريب نسبيًا محدودة. في هذا البحث، نقترح وصفة قوية لنقل نماذج الصورة-النص إلى الكشف عن الأهداف ذو المفردات المفتوحة. نستخدم هندسة متحول الرؤية القياسية مع تعديلات بسيطة جدًا، والتدريب المسبق التضادي للصورة-النص، وتحسين الكشف من النهاية إلى النهاية. تحليلنا لخصائص التوسع لهذا الإعداد يظهر أن زيادة التدريب المسبق على مستوى الصورة وحجم النموذج يؤدي إلى تحسينات مستمرة في مهمة الكشف اللاحقة. نقدم استراتيجيات التكيف والتقييد اللازمة لتحقيق أداء قوي للغاية في كشف الأهداف بشروط النص بدون أمثلة (zero-shot) وكشف الأهداف بشروط الصورة بأمثلة واحدة (one-shot). الشفرة البرمجية والنماذج متاحة على موقع GitHub.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp