HyperAIHyperAI

Command Palette

Search for a command to run...

كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع

Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim

الملخص

تم دراسة الكشف عن الكائنات ذات المفردات المفتوحة (OVD) باستخدام نماذج الرؤية واللغة (VLMs) للكشف عن كائنات جديدة تتجاوز الفئات المُدرَّسة مسبقًا. وقد ساهمت الطرق السابقة في تحسين القدرة على التعميم لتوسيع معرفة الكاشف، من خلال استخدام تسميات وهمية "إيجابية" مع أسماء فئات إضافية، مثل: sock (جورب)، iPod، و alligator (ألكاتور). ولتوسيع الطرق السابقة من ناحيتين، نقترح طريقة تُسمى RALF (Retrieval-Augmented Losses and visual Features). تعتمد هذه الطريقة على استرجاع فئات "سلبية" ذات صلة وتعزيز دوال الخسارة. كما يتم تعزيز الميزات البصرية باستخدام "مفاهيم مُصاغة لغويًا" للصفات، مثل: "تُرتدى على القدمين"، "جهاز موسيقى محمول"، و"أسنان حادة". بشكل محدد، يتكون RALF من وحدتين رئيسيتين: وحدة تعزيز الخسارة المُسترجعة (RAL) ووحدة تعزيز الميزات البصرية المُسترجعة (RAF). تُشكّل وحدة RAL خسارتَين تعكسان التشابه الدلالي مع القواميس السلبية. أما وحدة RAF، فتُعزز الميزات البصرية باستخدام المفاهيم المُصاغة لغويًا المستمدة من نموذج لغة كبير (LLM). أظهرت تجاربنا فعالية RALF على مجموعتي بيانات معيار COCO وLVIS. حيث حققنا تحسنًا يصل إلى 3.4 نقطة في مقياس box AP50N{50}^{\text{N}}50N على الفئات الجديدة في مجموعة بيانات COCO، وزيادة قدرها 3.6 نقطة في مقياس mask APr{\text{r}}r على مجموعة بيانات LVIS. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/RALF.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp