HyperAIHyperAI
منذ 2 أشهر

ImageBERT: التدريب متعدد الوسائط باستخدام بيانات الصور والنصوص على نطاق واسع وبإشراف ضعيف

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti
ImageBERT: التدريب متعدد الوسائط باستخدام بيانات الصور والنصوص على نطاق واسع وبإشراف ضعيف
الملخص

في هذا البحث، نقدم نموذجًا جديدًا مُدربًا مسبقًا للرؤية واللغة -- ImageBERT -- لدمج الصور والنصوص. نموذجنا هو نموذج يعتمد على تقنية الـ Transformer، والذي يستقبل أنماط مختلفة كمدخلات ويقوم بنمذجة العلاقة بينها. تم تدريب النموذج بشكل مسبق على أربع مهام في وقت واحد: نمذجة اللغة المقنّعة (MLM)، تصنيف الأشياء المقنّعة (MOC)، الانحدار الخطي للميزات الإقليمية المقنّعة (MRFR)، وتطابق الصورة مع النص (ITM). لتعزيز جودة التدريب المسبق بشكل أكبر، قمنا بجمع مجموعة بيانات كبيرة الحجم ومُشرف عليها بشكل ضعيف من الإنترنت (LAIT). أولاً، قمنا بتدريب النموذج على هذه المجموعة البيانات، ثم أجرينا مرحلة ثانية من التدريب المسبق باستخدام عناوين المفاهيم وعناوين SBU. تظهر تجاربنا أن استراتيجية التدريب المسبق متعددة المراحل تتفوق على التدريب المسبق بمراحل واحدة. كما قمنا بتكييف وتقييم نموذج ImageBERT الذي تم تدريبه مسبقًا في مهام استرجاع الصور واسترجاع النصوص، وحققنا أفضل النتائج حتى الآن على كل من مجموعتي بيانات MSCOCO وFlickr30k.