HyperAIHyperAI
منذ 11 أيام

كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع

Jooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim
كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع
الملخص

تم دراسة الكشف عن الكائنات ذات المفردات المفتوحة (OVD) باستخدام نماذج الرؤية واللغة (VLMs) للكشف عن كائنات جديدة تتجاوز الفئات المُدرَّسة مسبقًا. وقد ساهمت الطرق السابقة في تحسين القدرة على التعميم لتوسيع معرفة الكاشف، من خلال استخدام تسميات وهمية "إيجابية" مع أسماء فئات إضافية، مثل: sock (جورب)، iPod، و alligator (ألكاتور). ولتوسيع الطرق السابقة من ناحيتين، نقترح طريقة تُسمى RALF (Retrieval-Augmented Losses and visual Features). تعتمد هذه الطريقة على استرجاع فئات "سلبية" ذات صلة وتعزيز دوال الخسارة. كما يتم تعزيز الميزات البصرية باستخدام "مفاهيم مُصاغة لغويًا" للصفات، مثل: "تُرتدى على القدمين"، "جهاز موسيقى محمول"، و"أسنان حادة". بشكل محدد، يتكون RALF من وحدتين رئيسيتين: وحدة تعزيز الخسارة المُسترجعة (RAL) ووحدة تعزيز الميزات البصرية المُسترجعة (RAF). تُشكّل وحدة RAL خسارتَين تعكسان التشابه الدلالي مع القواميس السلبية. أما وحدة RAF، فتُعزز الميزات البصرية باستخدام المفاهيم المُصاغة لغويًا المستمدة من نموذج لغة كبير (LLM). أظهرت تجاربنا فعالية RALF على مجموعتي بيانات معيار COCO وLVIS. حيث حققنا تحسنًا يصل إلى 3.4 نقطة في مقياس box AP${50}^{\text{N}}$ على الفئات الجديدة في مجموعة بيانات COCO، وزيادة قدرها 3.6 نقطة في مقياس mask AP${\text{r}}$ على مجموعة بيانات LVIS. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/RALF.

كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع | أحدث الأوراق البحثية | HyperAI