الملخص

تعزز الطرق الحالية الكشف عن الكائنات في بيئة مفتوحة من خلال الاستفادة من القدرات القوية في التعرف على البيئة المفتوحة التي تمتلكها نماذج الرؤية واللغة (VLMs)، مثل CLIP. ومع ذلك، تظهر تحديان رئيسيان: (1) نقص في تمثيل المفاهيم، حيث تفتقر أسماء الفئات في الفضاء النصي لـ CLIP إلى المعرفة النصية والبصرية. (2) ميل إلى التوافق الزائد مع الفئات الأساسية، حيث يكون المعرفة المفتوحة في البيئة متحيّزاً نحو الفئات الأساسية أثناء نقلها من نماذج VLM إلى الكاشفات. لمعالجة هذه التحديات، نقترح استراتيجية تسمى "تعليم النموذج اللغوي" (LaMI)، والتي تستفيد من العلاقات بين المفاهيم البصرية وتطبقها داخل كاشف بسيط ولكن فعّال يشبه نموذج DETR، ويُسمّى LaMI-DETR. تستخدم LaMI نموذج GPT لبناء المفاهيم البصرية، وتستعين بنموذج T5 لاستكشاف التشابه البصري بين الفئات. تُحسّن هذه العلاقات بين الفئات تمثيل المفاهيم وتحمي من التوافق الزائد مع الفئات الأساسية. وتوصّل التجارب الشاملة إلى تفوق أداء منهجنا مقارنة بالطرق الحالية في نفس الإطار الصارم، دون الاعتماد على موارد تدريب خارجية. ويحقق LaMI-DETR نسبة AP لصناديق نادرة تبلغ 43.4 على مجموعة بيانات OV-LVIS، متفوّقاً على أفضل نتيجة سابقة بفارق 7.8 نقطة في نسبة AP للصناديق النادرة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي

Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي

Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LaMI-DETR: الكشف متعدد الفئات المفتوحة باستخدام تعليمات النموذج اللغوي

Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters