HyperAIHyperAI
منذ 11 أيام

التدريب المسبق للصورة واللغة ذات المركزية الإقليمية للكشف ذا القاموس المفتوح

Dahun Kim, Anelia Angelova, Weicheng Kuo
التدريب المسبق للصورة واللغة ذات المركزية الإقليمية للكشف ذا القاموس المفتوح
الملخص

نقدم منهجية جديدة للكشف عن الفئات المفتوحة تعتمد على التدريب المسبق الصوري-اللغوي المتمحور حول المناطق، بهدف سد الفجوة بين التدريب على مستوى الصورة والكشف عن الكائنات في بيئة ذات فئات مفتوحة. في مرحلة التدريب المسبق، ندمج بنية الكاشف فوق النموذج الأساسي للتصنيف، مما يُحسّن من قدرة النموذج على التعرف على المناطق من خلال تمكين رؤوس الكاشف من التعلم من أزواج صورة-نص كبيرة الحجم. تعتمد منهجيتنا على خسارة التباين القياسية فقط، دون استخدام علامات اصطناعية (pseudo-labeling)، ما يجعلها تمديدًا بسيطًا لكنه فعّال لطريقة التعلم التبايني، لتمكين النموذج من اكتساب مؤشرات معنوية للكائنات بشكل تلقائي. بالإضافة إلى ذلك، نقترح منهجية تعلّم نافذة مُزاحة (shifted-window learning) قائمة على الانتباه النافذة، بهدف جعل تمثيل النموذج الأساسي أكثر مقاومة، وثابتًا أمام التحويلات، وأقل تحيّزًا بفعل نمط النافذة. على معيار الكشف عن الفئات المفتوحة الشهير LVIS، حققت منهجيتنا أداءً جديدًا على مستوى الحالة الحالية (state of the art) بـ 37.6 نقطة APr للقطع (mask APr) باستخدام النموذج الأساسي الشائع ViT-L والبيانات العامة من LAION، و40.5 نقطة APr باستخدام بيانات DataComp-1B، متفوقة بشكل كبير على أفضل منهجية موجودة بفارق +3.7 نقطة APr على مستوى النظام. وعلى معيار COCO، حققنا أداءً متميزًا بـ 39.6 نقطة AP للكائنات الجديدة (novel AP) دون استخدام علامات اصطناعية أو تعليم ضعيف. علاوة على ذلك، قمنا بتقييم منهجيتنا في بيئة الكشف القابل للتحويل (transfer detection)، حيث أظهرت تحسنًا ملحوظًا مقارنة بالأساس (baseline). كما كشفت التصويرات البصرية عن ظهور خصائص مكانيّة للكائنات من خلال وصفات التدريب المسبق، مقارنةً بالأساس.

التدريب المسبق للصورة واللغة ذات المركزية الإقليمية للكشف ذا القاموس المفتوح | أحدث الأوراق البحثية | HyperAI