YOLO-عالم: اكتشاف الأشياء في الوقت الفعلي مع مفردات مفتوحة

سلسلة كاشفات "You Only Look Once" (YOLO) أثبتت نفسها كأدوات فعّالة وعملية. ومع ذلك، فإن اعتمادها على فئات الأشياء المحددة مسبقًا والمدربة يحد من قابليتها للتطبيق في السيناريوهات المفتوحة. لمعالجة هذا القيد، نقدم YOLO-عالم، وهي طريقة مبتكرة تحسن من YOLO بإضافة قدرات الكشف عن مفردات مفتوحة من خلال نمذجة الرؤية واللغة والتدريب المسبق على قواعد بيانات كبيرة الحجم. بصفة خاصة، نقترح شبكة تجميع المسارات المرئية-اللغوية القابلة لإعادة التشكيل (RepVL-PAN) وخسارة التباين النصي-الإقليمي لتسهيل التفاعل بين المعلومات المرئية واللغوية. يتفوق طريقتنا في الكشف عن مجموعة واسعة من الأشياء بطريقة لا تحتاج إلى تدريب سابق وبكفاءة عالية. على مجموعة البيانات الصعبة LVIS، يحقق YOLO-عالم دقة 35.4 AP بمعدل إطارات 52.0 FPS على بطاقة V100، مما يتفوق على العديد من الطرق المتقدمة حاليًا من حيث الدقة والسرعة. علاوة على ذلك، يحقق YOLO-عالم بعد التعديل أداءً ملحوظًا في عدة مهمات ثانوية، بما في ذلك الكشف عن الأشياء وتقسيم الحالات باستخدام المفردات المفتوحة.