OV-DINO: الكشف الموحد عن المفردات المفتوحة مع دمج انتقائي واعٍ للغة

الكشف عن المفردات المفتوحة هو مهمة صعبة بسبب الحاجة إلى اكتشاف الأشياء بناءً على أسماء الفئات، بما في ذلك تلك التي لم يتم التعامل معها أثناء التدريب. وقد أظهرت الطرق الحالية قدرات قوية في الكشف عن الصور دون تدريب مباشر (zero-shot detection) من خلال التدريب الأولي والتصنيف الوهمي على مجموعات بيانات كبيرة ومتنوعة. ومع ذلك، تواجه هذه النهج تحديين رئيسيين: (i) كيفية القضاء بفعالية على الضوضاء في البيانات الناتجة عن التصنيف الوهمي، و(ii) كيفية الاستفادة بكفاءة من القدرة المرتبطة باللغة لدمج وتوافق متعدد الوسائط على مستوى المناطق.لحل هذه التحديات، نقترح طريقة جديدة موحدة للكشف عن المفردات المفتوحة تُسمى OV-DINO، والتي تم تدريبها أولياً على مجموعات بيانات كبيرة ومتنوعة باستخدام دمج اختياري مرتبطة باللغة في إطار موحد. وبشكل خاص، نقدم خط أنابيب دمج البيانات الموحد (UniDI) لتمكين التدريب من البداية إلى النهاية وإزالة الضوضاء من عملية إنشاء التصنيفات الوهمية من خلال توحيدها لمصادر البيانات المختلفة إلى تنسيق بيانات مركز حول الاكتشاف. بالإضافة إلى ذلك، نقترح وحدة دمج اختياري مرتبطة باللغة (LASF) لتعزيز توافق متعدد الوسائط من خلال عملية اختيار واستخدام استعلامات مرتبطة باللغة.لقد قمنا بتقييم أداء OV-DINO المقترح على مقاييس شائعة للكشف عن المفردات المفتوحة، حيث حقق أفضل النتائج الحالية بمعدل دقة AP بنسبة 50.6% على مقاييس COCO و40.1% على مقاييس LVIS بطريقة الكشف دون تدريب مباشر (zero-shot)، مما يدل على قوتها في التعميم. علاوة على ذلك، حققت OV-DINO بعد التنعيم الدقيق (fine-tuning) على COCO معدل دقة AP بنسبة 58.4%,متفوقةً على العديد من الطرق الحالية ذات العمود الفقري نفسه. يمكن الحصول على كود OV-DINO من الرابط التالي: https://github.com/wanghao9610/OV-DINO.请注意,最后一个句子中的百分比符号“%”在阿拉伯语中通常会放在数字后面,但是根据上下文和排版习惯,有时也会放在数字前面。为了保持一致性,这里将其放在了数字后面。如果需要调整,请告知。