HyperAIHyperAI
منذ شهر واحد

مُشَكِّل الرؤية-اللغة-الرؤية: تقطير المعرفة القابل للتوسيع من نماذج الانتشار

Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao
مُشَكِّل الرؤية-اللغة-الرؤية: تقطير المعرفة القابل للتوسيع من نماذج الانتشار
الملخص

بناء نماذج الرؤية واللغة المتطورة (VLMs) بقدرات تسمية قوية يتطلب عادةً التدريب على مليارات الأزواج الصورية-النصية عالية الجودة، مما يستغرق ملايين ساعات المعالجة باستخدام وحدات معالجة الرسومات (GPU). يقدم هذا البحث إطار الترميز الذاتي للرؤية-اللغة-الرؤية (VLV)، الذي يستغل بشكل استراتيجي المكونات المسبقة التدريب: مُشفر الرؤية، مُفكِّر النموذج الانسيابي من النص إلى الصورة (T2I)، ومن ثم نموذج اللغة الكبير (LLM). وبشكل خاص، ننشئ عنق زجاجي للمعلومات من خلال تنظيم فضاء تمثيل اللغة، وهو ما يتم تحقيقه عبر تجميد مُفكِّر النموذج الانسيابي المسبق التدريب (T2I). يُظهر خط أنابيبنا VLV قدرته على استخلاص المعرفة من النموذج الانسيابي المشروط بالنص باستخدام التضمينات المستمرة، مما يدل على فهم دلالي شامل عبر إعادة بناء ذات جودة عالية. بالإضافة إلى ذلك، من خلال تعديل نموذج اللغة الكبير المسبق التدريب لفك شفرة التمثيلات اللغوية الوسيطة إلى وصف تفصيلي، نقوم ببناء نظام تسمية رائد يضاهي أفضل النماذج مثل GPT-4o وجيميني 2.0 فلاش. يُظهر أسلوبنا كفاءة تكلفة استثنائية ويقلل بشكل كبير من متطلبات البيانات؛ حيث يتم استخدام الصور الأحادية الوضع بشكل أساسي في التدريب واستغلال أقصى فائدة من النماذج المسبقة التدريب الموجودة (مشفر الصورة، نموذج الانسياب T2I، ونموذج اللغة LLM)، مما يتجنب الحاجة إلى قواعد بيانات صورية-نصية ضخمة ويحافظ على إجمالي تكاليف التدريب أقل من 1,000 دولار أمريكي.

مُشَكِّل الرؤية-اللغة-الرؤية: تقطير المعرفة القابل للتوسيع من نماذج الانتشار | أحدث الأوراق البحثية | HyperAI