HyperAIHyperAI

Command Palette

Search for a command to run...

OVMR: التعرف المفتوح المفرد باستخدام مراجع متعددة الوسائط

Zehong Ma Shiliang Zhang Longhui Wei Qi Tian

الملخص

يتمثل التحدي المتمثل في التعرف المفتوح على الفئات في أن النموذج لا يمتلك أي معرفة مسبقة بالفئات الجديدة التي يتم تطبيقه عليها. وقد اقترح العمل الحالي طرقًا مختلفة لدمج مؤشرات الفئة داخل النموذج، مثل من خلال التدريب الدقيق القائم على عدد قليل من الأمثلة (few-shot fine-tuning)، أو من خلال توفير أسماء الفئات أو وصفات نصية للنماذج البصرية-اللغوية (Vision-Language Models). إلا أن التدريب الدقيق يكون مكلفاً من حيث الوقت، ويؤدي إلى تراجع القدرة على التعميم. كما أن الوصفات النصية قد تكون غامضة، ولا تتمكن من وصف التفاصيل البصرية بدقة. تتناول هذه الورقة التعرف المفتوح على الفئات من منظور مختلف، من خلال الاستناد إلى أدلة متعددة الوسائط مكوّنة من وصفات نصية وأمثلة صورية. يعتمد النهج المُقترح، المُسمى OVMR، على مكوّنين مبتَكرين لتحقيق تضمين أكثر قوة لمؤشرات الفئة. أولاً، يتم إنشاء فاصل متعدد الوسائط (multi-modal classifier) من خلال مكملة ديناميكية للنصوص بوساطة أمثلة صورية. ثم يتم تطبيق وحدة تحسين تعتمد على التفضيل لدمج الفاصل الأحادي الوسائط مع الفاصل المتعدد الوسائط، بهدف التخفيف من المشكلات الناتجة عن جودة منخفضة في الصور أو الوصفات النصية. يُعد OVMR وحدة يمكن دمجها بسهولة (plug-and-play)، ويعمل بشكل جيد حتى مع الصور الأمثلية التي تم جمعها عشوائيًا من الإنترنت. أظهرت التجارب الواسعة أداءً واعدًا لـ OVMR، حيث تفوق على الطرق الحالية في مختلف السيناريوهات والإعدادات. يمكن الوصول إلى الشيفرة المصدرية بشكل عام عبر الرابط: \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp