إطار بسيط للتقسيم والكشف متعدد المفردات المفتوحة

نقدّم OpenSeeD، وهي إطار عمل بسيط للتصنيف والكشف بفهوم مفتوح، يتعلم بشكل مشترك من مجموعات بيانات مختلفة للتصنيف والكشف. ولسد الفجوة بين المفردات ومستوى التفاصيل في التسميات، نقدّم أولًا مشغّل نصي مُدرّب مسبقًا لترميز جميع المفاهيم البصرية في المهمتين، ونُعلّم فضاءً معنويًا مشتركًا لهما. هذا يمنحنا نتائج معقولة مقارنة بالمناهج الأخرى التي تم تدريبها على مهمة التصنيف فقط. ولتحقيق تقارب أعمق، نحدد فجواتين رئيسيتين: (أ) الفجوة الوظيفية — حيث تتطلب مهمة التصنيف استخراج أقنعة لكل من الكائنات الأمامية والمواد الخلفية، بينما تهتم مهمة الكشف فقط بالكائنات الأمامية؛ (ب) الفجوة في البيانات — حيث تختلف دقة التسميات المكانية بين المربعات (boxes) والأنماط (masks)، وبالتالي لا يمكن استبدالها مباشرة. ولحل هذه المشكلات، نقترح تفكيك عملية التشفير (decoupled decoding) لتقليل التداخل بين الكائنات الأمامية والخلفية، ونُقدّم تشفيرًا مشروطًا للأنماط (conditioned mask decoding) لمساعدة في إنشاء الأنماط المقابلة للمربعات المعطاة. وبهذا، نطوّر نموذجًا بسيطًا من نوع المشغّل-المُفكّك (encoder-decoder) يدمج جميع التقنيات الثلاث، وندرّبه بشكل مشترك على مجموعتي بيانات COCO وObjects365. وبعد التدريب المسبق، يُظهر نموذجنا قدرة تنافسية أو أقوى على النقل الصفرية (zero-shot transferability) في كلا المهمتين. وبشكل خاص، يتفوّق OpenSeeD على أفضل الطرق الحالية في التصنيف المفتوح للInstances والبيانيات (panoptic segmentation) عبر 5 مجموعات بيانات، ويتفوّق على الطرق السابقة في الكشف المفتوح على LVIS وODinW ضمن نفس الإعدادات. عند نقل النموذج إلى مهام محددة، يحقّق أداءً جديدًا في أفضل الأداء (SoTA) في التصنيف البياني على COCO وADE20K، وفي التصنيف الفردي على ADE20K وCityscapes.في النهاية، نشير إلى أن OpenSeeD هو أول نموذج يُستكشف فيه الإمكانات المحتملة للتدريب المشترك على التصنيف والكشف، ونأمل أن يُقبل كأساس قوي لتطوير نموذج واحد قادر على تنفيذ كلا المهمتين في بيئة مفتوحة.