HyperAIHyperAI
منذ 2 أشهر

التدريب المبكر للرؤية واللغة من الخشن إلى الدقيق مع الاندماج في العمود الفقري

Dou, Zi-Yi ; Kamath, Aishwarya ; Gan, Zhe ; Zhang, Pengchuan ; Wang, Jianfeng ; Li, Linjie ; Liu, Zicheng ; Liu, Ce ; LeCun, Yann ; Peng, Nanyun ; Gao, Jianfeng ; Wang, Lijuan
التدريب المبكر للرؤية واللغة من الخشن إلى الدقيق مع الاندماج في العمود الفقري
الملخص

تلقى التدريب المسبق للرؤية واللغة (VL) اهتمامًا كبيرًا مؤخرًا. ومع ذلك، فإن معظم النماذج الحالية التي تستخدم التدريب المسبق من البداية إلى النهاية إما تستهدف مهام الرؤية واللغة مثل استرجاع الصورة-النص، الإجابة على الأسئلة البصرية (VQA)، ووصف الصور التي تختبر الفهم العالي للصور، أو تستهدف فقط الفهم على مستوى المنطقة لمهام مثل تحديد الجمل و الكشف عن الأشياء. نقدم في هذا البحث FIBER (Fusion-In-the-Backbone-based transformER)، وهي بنية نموذج جديدة للرؤية واللغة يمكنها التعامل بسلاسة مع هذين النوعين من المهام. بدلاً من وجود طبقات متخصصة للمزج بعد العمود الفقري أحادي الوسيط، يدفع FIBER عملية المزج المتعددة الوسائط بعمق داخل النموذج بإدخال الانتباه المتبادل (cross-attention) في العمد الفقرية للصورة والنص، مما يؤدي إلى زيادة في الذاكرة والأداء. بالإضافة إلى ذلك، على عكس الأعمال السابقة التي كانت إما مُدربة مسبقًا فقط على بيانات الصورة-النص أو على بيانات دقيقة مع شروحات صندوقية (box-level annotations)، نقدم استراتيجية تدريب مسبق ذات مرحلتين تستخدم كلا نوعي البيانات بكفاءة: (i) التدريب المسبق الخشن القائم على بيانات الصورة-النص؛ يتبعه (ii) التدريب المسبق الدقيق القائم على بيانات الصورة-النص-الصندوق. نقوم بإجراء تجارب شاملة على مجموعة واسعة من مهام الرؤية واللغة، تتراوح بين الإجابة على الأسئلة البصرية، وصف الصور، والاسترجاع، وحتى تحديد الجمل، فهم التعبيرات المرجعية وكشف الأشياء. باستخدام عملية المزج المتعددة الوسائط العميقة مع استراتيجية التدريب المسبق ذات المرحلتين، يوفر FIBER تحسينات أداء ثابتة فوق خطوط الأساس القوية في جميع المهام، ويتفوق غالبًا على الأساليب التي تستخدم كميات أكبر بكثير من البيانات. يمكن الحصول على الكود من الرابط https://github.com/microsoft/FIBER.

التدريب المبكر للرؤية واللغة من الخشن إلى الدقيق مع الاندماج في العمود الفقري | أحدث الأوراق البحثية | HyperAI