يولو-ورلد: اكتشف مجموعة واسعة من الأشياء في الزمن الفعلي باستخدام نموذج الرؤية واللغة
سلسلة كاشفات "You Only Look Once" (YOLO) قد أثبتت فعاليتها وعمليتها كأدوات متقدمة في مجال الكشف عن الأشياء. ومع ذلك، فإن الاعتماد الكبير على فئات الأشياء المحددة مسبقًا والمدربة يحد من قدرتها على التطبيق في السيناريوهات المفتوحة. للتعامل مع هذا القيد، تم تقديم نهج جديد يدعى "YOLO-World"، وهو نهج مبتكر يعزز كاشفات YOLO بقدرات الكشف عن الكلمات المفتوحة من خلال نماذج الرؤية واللغة والتدريب على مجموعات بيانات كبيرة. في هذا الإطار، تم اقتراح شبكة جديدة تُعرف باسم "Re-parameterizable Vision-Language Path Aggregation Network" (RepVL-PAN)، بالإضافة إلى خسارة التباين بين النص والمنطقة (region-text contrastive loss)، لتسهيل التفاعل بين المعلومات البصرية واللغوية. تتسم هذه الطريقة بأنها قادرة على اكتشاف مجموعة واسعة من الأشياء بطريقة فورية وكفاءة عالية، حتى في الحالات التي لم يتم تدريب النظام عليها مسبقًا (zero-shot). على مجموعة البيانات الصعبة "LVIS"، حقق "YOLO-World" دقة تبلغ 35.4% من معدل الاستدعاء (AP) بمعدل 52 صورة في الثانية (FPS) على بطاقة Tesla V100. هذه النتائج تتفوق على العديد من الأساليب المتقدمة الأخرى من حيث الدقة والسرعة. بدورها، أظهرت النسخة المعاد تدريبها من YOLO-World أداءً متميزًا في العديد من المهام الثانوية، مثل الكشف عن الأشياء والتقسيم الشامل للأشياء (open-vocabulary instance segmentation). يجدر الذكر أن العمل ما زال قيد التطور، وأن الكود والنماذج متوفرة عبر الرابط التالي: https://github.com/user/yoloworld. هذا النهج الجديد يعتبر خطوة هامة نحو تطوير أنظمة كشف الأشياء التي تكون أكثر مرونة وقدرة على التعامل مع سيناريوهات متنوعة ومفتوحة.