HyperAIHyperAI
منذ 2 أشهر

صورة كلغة أجنبية: التدريب المسبق لـ BEiT في جميع مهام الرؤية ومهام الرؤية-اللغة

Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei
صورة كلغة أجنبية: التدريب المسبق لـ BEiT في جميع مهام الرؤية ومهام الرؤية-اللغة
الملخص

يظهر تقارب كبير بين اللغة والرؤية والتدريب متعدد الوسائط. في هذا البحث، نقدم نموذج أساس متعدد الوسائط عام يُعرف بـ BEiT-3، والذي حقق أداءً متفوقًا في النقل على مهام الرؤية ومهام الرؤية-اللغة. تحديدًا، نتقدم في التقارب الكبير من ثلاثة جوانب: هندسة العمود الفقري (backbone architecture)، مهمة التدريب الأولي (pretraining task)، وتوسيع النموذج (model scaling up). نقدم متعددي المتحولات (Multiway Transformers) للنمذجة العامة، حيث تتيح الهندسة القابلة للتقسيم كل من الاندماج العميق والترميز المحدد للوسائط. بناءً على العمود الفقري المشترك، نقوم بتنفيذ التدريب المقنّع لـ "اللغة" على الصور (Imglish)، النصوص (الإنجليزية)، وأزواج الصورة-النص ("جمل متوازية") بطريقة موحدة. تظهر نتائج التجارب أن BEiT-3 يحقق أداءً متفوقًا في اكتشاف الأشياء (COCO)، تقسيم المعنى (ADE20K)، تصنيف الصور (ImageNet)، الاستدلال البصري (NLVR2)، الإجابة عن الأسئلة البصرية (VQAv2)، إنشاء العناوين البصرية (COCO)، واسترجاع الوسائط المتعددة عبر الأنظمة المختلفة (Flickr30K, COCO).

صورة كلغة أجنبية: التدريب المسبق لـ BEiT في جميع مهام الرؤية ومهام الرؤية-اللغة | أحدث الأوراق البحثية | HyperAI