OVMR: التعرف المفتوح المفرد باستخدام مراجع متعددة الوسائط

يتمثل التحدي المتمثل في التعرف المفتوح على الفئات في أن النموذج لا يمتلك أي معرفة مسبقة بالفئات الجديدة التي يتم تطبيقه عليها. وقد اقترح العمل الحالي طرقًا مختلفة لدمج مؤشرات الفئة داخل النموذج، مثل من خلال التدريب الدقيق القائم على عدد قليل من الأمثلة (few-shot fine-tuning)، أو من خلال توفير أسماء الفئات أو وصفات نصية للنماذج البصرية-اللغوية (Vision-Language Models). إلا أن التدريب الدقيق يكون مكلفاً من حيث الوقت، ويؤدي إلى تراجع القدرة على التعميم. كما أن الوصفات النصية قد تكون غامضة، ولا تتمكن من وصف التفاصيل البصرية بدقة. تتناول هذه الورقة التعرف المفتوح على الفئات من منظور مختلف، من خلال الاستناد إلى أدلة متعددة الوسائط مكوّنة من وصفات نصية وأمثلة صورية. يعتمد النهج المُقترح، المُسمى OVMR، على مكوّنين مبتَكرين لتحقيق تضمين أكثر قوة لمؤشرات الفئة. أولاً، يتم إنشاء فاصل متعدد الوسائط (multi-modal classifier) من خلال مكملة ديناميكية للنصوص بوساطة أمثلة صورية. ثم يتم تطبيق وحدة تحسين تعتمد على التفضيل لدمج الفاصل الأحادي الوسائط مع الفاصل المتعدد الوسائط، بهدف التخفيف من المشكلات الناتجة عن جودة منخفضة في الصور أو الوصفات النصية. يُعد OVMR وحدة يمكن دمجها بسهولة (plug-and-play)، ويعمل بشكل جيد حتى مع الصور الأمثلية التي تم جمعها عشوائيًا من الإنترنت. أظهرت التجارب الواسعة أداءً واعدًا لـ OVMR، حيث تفوق على الطرق الحالية في مختلف السيناريوهات والإعدادات. يمكن الوصول إلى الشيفرة المصدرية بشكل عام عبر الرابط: \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}.