HyperAIHyperAI

Command Palette

Search for a command to run...

COSMOS: التقطير الذاتي عبر الأنظمة المتعددة للتدريب المسبق على الرؤية واللغة

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

الملخص

تمكنت نماذج الرؤية واللغة (VLMs) التي تم تدريبها باستخدام الخسارة التضادية من تحقيق تقدم كبير في مهام مختلفة تتعلق بالرؤية واللغة. ومع ذلك، فإن الطبيعة العالمية للخسارة التضادية تجعل هذه النماذج تركز بشكل أساسي على الأشياء المقدمة في الصورة، مما يتجاهل المعلومات الحاسمة الأخرى في الصورة ويحد من فعاليتها في المهام اللاحقة. لمعالجة هذه التحديات، نقترح نظام COSMOS: التقطير الذاتي بين الوسائط المتعددة (CrOSs-MOdality Self-distillation) لتدريب الرؤية واللغة، والذي يدمج استراتيجية جديدة لإزالة النص ووحدة انتباه متقاطعة ضمن إطار تعلم ذاتي. نقوم بإنشاء آراء عالمية ومحلية للصور والنصوص (أي، تعزيزات متعددة الوسائط)، وهي ضرورية للتقطير الذاتي في نماذج الرؤية واللغة. بالإضافة إلى ذلك، نقدم وحدة انتباه متقاطعة، مما يمكّن نظام COSMOS من تعلم تمثيلات شاملة بين الوسائط المتعددة محسنة عبر خسارة التقطير الذاتي بين الوسائط المتعددة. يتميز نظام COSMOS بتفوقه المستمر على النماذج القوية السابقة في مجموعة متنوعة من المهام اللاحقة بدون إشراف، بما في ذلك الاسترجاع والتصنيف والتقطيع الدلالي. كما أنه يتفوق على النماذج المستندة إلى CLIP والمدربة على قواعد بيانات أكبر في مهام الإدراك البصري والفهم السياقي. يمكن الوصول إلى الكود من خلال الرابط https://github.com/ExplainableML/cosmos.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp