HyperAIHyperAI

Command Palette

Search for a command to run...

MiCo: التباين متعدد الصور للتفكير البصري التعزيزي

Xi Chen Mingkang Zhu Shaoteng Liu Xiaoyang Wu Xiaogang Xu Yu Liu Xiang Bai Hengshuang Zhao

الملخص

يستكشف هذا البحث تمكين عملية التفكير المتسلسل (Chain-of-Thought - CoT) لربط العلامات البصرية عبر صور متعددة. الحل المباشر هو تكييف التعلم التعزيزي القائم على القواعد لنموذج الرؤية واللغة (Vision-Language Model - VLM). ومع ذلك، تعتمد مثل هذه الطرق عادةً على أزواج الأسئلة والأجوبة التي يتم جمعها يدويًا، مما يمكن أن يكون تحديًا خاصًا عند التعامل مع التفاصيل البصرية الدقيقة والمنطق المعقد بين الصور. مستوحى من تعلم التمثيل البصري الذاتي الإشراف، نلاحظ أن الصور تحتوي على قيود متأصلة يمكن أن تعمل كإشراف. بناءً على هذا الفهم، نقوم ببناء ثلاثيات صورية تتكون من صورتين مشتقتيين من نفس الصورة وصورة ثالثة مشابهة ولكن مختلفة. أثناء التدريب، يتم دفع النموذج لإنشاء عملية تفكير لمقارنة هذه الصور (أي تحديد ما إذا كانت متطابقة أو مختلفة). ثم نقوم بتحسين النموذج باستخدام التعلم التعزيزي القائم على القواعد. بسبب الشبه البصري العالي وجودة الاشتقاقات، يجب على النموذج التركيز على التغييرات البصرية الدقيقة وإجراء الاستدلال المنطقي للنجاح. تظهر التجارب أن القدرة على الاستدلال التي تم تعلمها، رغم أنها تم تدريبها فقط على مهام المقارنة البصرية، تنطبق بشكل فعال على مجموعة واسعة من الأسئلة. دون الاعتماد على أي أزواج أسئلة وأجوبة تم إنشاؤها يدويًا، حققت طريقتنا تحسينات كبيرة في مقاييس الاستدلال المتعدد للصور وأظهرت أداءً قويًا في المهام البصرية العامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MiCo: التباين متعدد الصور للتفكير البصري التعزيزي | مستندات | HyperAI