Command Palette
Search for a command to run...
كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع
كشف الكائنات ذي مجال مفتوح مُعزز بالاسترجاع
Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim
الملخص
تم دراسة الكشف عن الكائنات ذات المفردات المفتوحة (OVD) باستخدام نماذج الرؤية واللغة (VLMs) للكشف عن كائنات جديدة تتجاوز الفئات المُدرَّسة مسبقًا. وقد ساهمت الطرق السابقة في تحسين القدرة على التعميم لتوسيع معرفة الكاشف، من خلال استخدام تسميات وهمية "إيجابية" مع أسماء فئات إضافية، مثل: sock (جورب)، iPod، و alligator (ألكاتور). ولتوسيع الطرق السابقة من ناحيتين، نقترح طريقة تُسمى RALF (Retrieval-Augmented Losses and visual Features). تعتمد هذه الطريقة على استرجاع فئات "سلبية" ذات صلة وتعزيز دوال الخسارة. كما يتم تعزيز الميزات البصرية باستخدام "مفاهيم مُصاغة لغويًا" للصفات، مثل: "تُرتدى على القدمين"، "جهاز موسيقى محمول"، و"أسنان حادة". بشكل محدد، يتكون RALF من وحدتين رئيسيتين: وحدة تعزيز الخسارة المُسترجعة (RAL) ووحدة تعزيز الميزات البصرية المُسترجعة (RAF). تُشكّل وحدة RAL خسارتَين تعكسان التشابه الدلالي مع القواميس السلبية. أما وحدة RAF، فتُعزز الميزات البصرية باستخدام المفاهيم المُصاغة لغويًا المستمدة من نموذج لغة كبير (LLM). أظهرت تجاربنا فعالية RALF على مجموعتي بيانات معيار COCO وLVIS. حيث حققنا تحسنًا يصل إلى 3.4 نقطة في مقياس box AP50N على الفئات الجديدة في مجموعة بيانات COCO، وزيادة قدرها 3.6 نقطة في مقياس mask APr على مجموعة بيانات LVIS. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/RALF.