النماذج متعددة الأوضاع الشاملة هي تصنيفات بسيطة وفعالة للكشف عن الأشياء ذات المفردات الواسعة

تمثيل النماذج للاعتراف بفئات عديدة ومتنوعة في العالم المفتوح كان هدفًا مستمرًا في مجال اكتشاف الأشياء. من خلال الاستفادة من قدرات التعميم للنماذج البصرية-اللغوية، يمكن للمسارح الحالية في العالم المفتوح أن تعترف بمدى أوسع من المفردات، رغم تدريبها على فئات محدودة. ومع ذلك، عندما يتوسع نطاق المفردات الفئوية أثناء التدريب إلى مستوى العالم الحقيقي، فإن تصنيفات سابقة مُحاذاة مع أسماء الفئات الخشنة تقلل بشكل كبير من أداء هذه المسارح. في هذا البحث، نقدم "Prova"، وهو تصنيف نموذجي متعدد الوسائط للاعتراف بالأشياء ذات المفردات الكبيرة. يستخلص "Prova" نماذج متعددة الوسائط شاملة كبداية لمُحاذاة المصنفات لمعالجة مشكلة فشل الاعتراف بالأشياء ذات المفردات الكبيرة. على مجموعة بيانات V3Det، يعزز هذا الأسلوب البسيط الأداء بشكل كبير بين المسارح ذات المرحلة الواحدة والمرحلتين ومسارح DETR مع إضافة طبقات الإسقاط فقط في كل من الإعدادين الإشرافي والمفردات المفتوحة. بشكل خاص، يحسن "Prova" أداء مسرحي Faster R-CNN و FCOS و DINO بمقدار 3.3 و 6.2 و 2.9 AP على التوالي في الإعداد الإشرافي لـ V3Det. بالنسبة للإعداد المفرداتي المفتوح، يحقق "Prova" أداءً جديدًا رائدًا بمقدار 32.8 AP أساسية و 11.0 AP جديدة، مما يمثل زيادة قدرها 2.6 و 4.3 على الطرق السابقة.请注意,这里的人名和机构名称(如Faster R-CNN, FCOS, DINO, V3Det)在阿拉伯语中通常会保留其英文形式,以确保专业性和准确性。