HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق للصورة واللغة ذات المركزية الإقليمية للكشف ذا القاموس المفتوح

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

نقدم منهجية جديدة للكشف عن الفئات المفتوحة تعتمد على التدريب المسبق الصوري-اللغوي المتمحور حول المناطق، بهدف سد الفجوة بين التدريب على مستوى الصورة والكشف عن الكائنات في بيئة ذات فئات مفتوحة. في مرحلة التدريب المسبق، ندمج بنية الكاشف فوق النموذج الأساسي للتصنيف، مما يُحسّن من قدرة النموذج على التعرف على المناطق من خلال تمكين رؤوس الكاشف من التعلم من أزواج صورة-نص كبيرة الحجم. تعتمد منهجيتنا على خسارة التباين القياسية فقط، دون استخدام علامات اصطناعية (pseudo-labeling)، ما يجعلها تمديدًا بسيطًا لكنه فعّال لطريقة التعلم التبايني، لتمكين النموذج من اكتساب مؤشرات معنوية للكائنات بشكل تلقائي. بالإضافة إلى ذلك، نقترح منهجية تعلّم نافذة مُزاحة (shifted-window learning) قائمة على الانتباه النافذة، بهدف جعل تمثيل النموذج الأساسي أكثر مقاومة، وثابتًا أمام التحويلات، وأقل تحيّزًا بفعل نمط النافذة. على معيار الكشف عن الفئات المفتوحة الشهير LVIS، حققت منهجيتنا أداءً جديدًا على مستوى الحالة الحالية (state of the art) بـ 37.6 نقطة APr للقطع (mask APr) باستخدام النموذج الأساسي الشائع ViT-L والبيانات العامة من LAION، و40.5 نقطة APr باستخدام بيانات DataComp-1B، متفوقة بشكل كبير على أفضل منهجية موجودة بفارق +3.7 نقطة APr على مستوى النظام. وعلى معيار COCO، حققنا أداءً متميزًا بـ 39.6 نقطة AP للكائنات الجديدة (novel AP) دون استخدام علامات اصطناعية أو تعليم ضعيف. علاوة على ذلك، قمنا بتقييم منهجيتنا في بيئة الكشف القابل للتحويل (transfer detection)، حيث أظهرت تحسنًا ملحوظًا مقارنة بالأساس (baseline). كما كشفت التصويرات البصرية عن ظهور خصائص مكانيّة للكائنات من خلال وصفات التدريب المسبق، مقارنةً بالأساس.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp