HyperAIHyperAI
منذ 2 أشهر

Unicoder-VL: مُشفر عالمي للرؤية واللغة من خلال التدريب عبر الأوضاع

Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou
Unicoder-VL: مُشفر عالمي للرؤية واللغة من خلال التدريب عبر الأوضاع
الملخص

نقترح "يونيكودر-في إل" (Unicoder-VL)، وهو مُشغّل عام يهدف إلى تعلم التمثيلات المشتركة للرؤية واللغة بطريقة التدريب المسبق. مستوحين الأفكار من نماذج التدريب المسبق متعددة اللغات مثل "إكس إل إم" (XLM) و"يونيكودر" (Unicoder)، يتم تقديم المحتوى البصري والمحتوى اللغوي إلى متعدد الطبقات من نوع ترانسفورمر (Transformer) للتدريب المسبق عبر الوسائط، حيث يتم استخدام ثلاث مهام مسبقة، وهي: نموذج اللغة المقنّع (Masked Language Modeling - MLM)، تصنيف الكائنات المقنّعة (Masked Object Classification - MOC)، ومطابقة الرؤية واللغة (Visual-linguistic Matching - VLM). تتعلم المهمتان الأولى والثانية تمثيلات تعتمد على السياق للمدخلات الكلماتية بناءً على المحتوى اللغوي والبصري معًا. أما المهمة الأخيرة فتحاول التنبؤ ب WHETHER صورة ونص يصفان بعضهما البعض أم لا. بعد التدريب المسبق على أزواج الصور والتعليقات الواسعة النطاق، نقوم بنقل "يونيكودر-في إل" إلى استرجاع الصور النصي القائم على التعليقات وتقديم الاستدلال الشائع البصري، مع طبقة خرج إضافية واحدة فقط. حققنا أفضل النتائج أو نتائج مقارنة في كلا المهمتين وأظهرنا القدرة القوية للتدريب المسبق عبر الوسائط.请注意,最后一句中的“WHETHER”应该是笔误,正确的翻译应该为:بعد التدريب المسبق على أزواج الصور والتعليقات الواسعة النطاق، نقوم بنقل "يونيكودر-في إل" إلى استرجاع الصور النصي القائم على التعليقات وتقديم الاستدلال الشائع البصري، مع طبقة خرج إضافية واحدة فقط. حققنا أفضل النتائج أو نتائج مقارنة في كلا المسارين وأظهرنا القدرة القوية للتدريب المسبق عبر الوسائط.

Unicoder-VL: مُشفر عالمي للرؤية واللغة من خلال التدريب عبر الأوضاع | أحدث الأوراق البحثية | HyperAI