HyperAIHyperAI
منذ 2 أشهر

COSMOS: التقطير الذاتي عبر الأنظمة المتعددة للتدريب المسبق على الرؤية واللغة

Sanghwan Kim; Rui Xiao; Mariana-Iuliana Georgescu; Stephan Alaniz; Zeynep Akata
COSMOS: التقطير الذاتي عبر الأنظمة المتعددة للتدريب المسبق على الرؤية واللغة
الملخص

تمكنت نماذج الرؤية واللغة (VLMs) التي تم تدريبها باستخدام الخسارة التضادية من تحقيق تقدم كبير في مهام مختلفة تتعلق بالرؤية واللغة. ومع ذلك، فإن الطبيعة العالمية للخسارة التضادية تجعل هذه النماذج تركز بشكل أساسي على الأشياء المقدمة في الصورة، مما يتجاهل المعلومات الحاسمة الأخرى في الصورة ويحد من فعاليتها في المهام اللاحقة. لمعالجة هذه التحديات، نقترح نظام COSMOS: التقطير الذاتي بين الوسائط المتعددة (CrOSs-MOdality Self-distillation) لتدريب الرؤية واللغة، والذي يدمج استراتيجية جديدة لإزالة النص ووحدة انتباه متقاطعة ضمن إطار تعلم ذاتي. نقوم بإنشاء آراء عالمية ومحلية للصور والنصوص (أي، تعزيزات متعددة الوسائط)، وهي ضرورية للتقطير الذاتي في نماذج الرؤية واللغة. بالإضافة إلى ذلك، نقدم وحدة انتباه متقاطعة، مما يمكّن نظام COSMOS من تعلم تمثيلات شاملة بين الوسائط المتعددة محسنة عبر خسارة التقطير الذاتي بين الوسائط المتعددة. يتميز نظام COSMOS بتفوقه المستمر على النماذج القوية السابقة في مجموعة متنوعة من المهام اللاحقة بدون إشراف، بما في ذلك الاسترجاع والتصنيف والتقطيع الدلالي. كما أنه يتفوق على النماذج المستندة إلى CLIP والمدربة على قواعد بيانات أكبر في مهام الإدراك البصري والفهم السياقي. يمكن الوصول إلى الكود من خلال الرابط https://github.com/ExplainableML/cosmos.

COSMOS: التقطير الذاتي عبر الأنظمة المتعددة للتدريب المسبق على الرؤية واللغة | أحدث الأوراق البحثية | HyperAI