HyperAIHyperAI
منذ 17 أيام

توسيع التدريب المسبق للرؤية واللغة لتصنيف الصور

Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
توسيع التدريب المسبق للرؤية واللغة لتصنيف الصور
الملخص

في السنوات الأخيرة، شهدنا تحسّنًا كبيرًا في الأداء في مهمة إنشاء العناوين التوضيحية للصور (Image Captioning) بناءً على التدريب المسبق متعدد الوسائط (Vision-Language Pre-training - VLP). ويعتقد أن الحجم يُعدّ عاملًا مهمًا في هذا التقدم. ومع ذلك، يركّز معظم الأبحاث الحالية على تدريب نماذج الترانسفورمر بحجم معتدل (مثل 12 أو 24 طبقة) على نحو 4 ملايين صورة تقريبًا. في هذا البحث، نقدّم LEMON، وهو نموذج كبير الحجم لإنشاء عناوين توضيحية للصور (LargE-scale iMage captiONer)، ونقدّم أول دراسة تجريبية حول سلوك التوسع (scaling behavior) لنموذج VLP في مهام إنشاء العناوين التوضيحية للصور. نستخدم نموذج VinVL المتطور حديثًا كنموذج مرجعي، والذي يتكون من معالج ميزات الصور ونموذج ترانسفورمر، ونقوم بتوسيع النموذج وتصغيره، بحيث تتراوح أحجام النماذج بين 13 و675 مليون معلمة. من حيث البيانات، نجري تجارب باستخدام ما يصل إلى 200 مليون زوج من الصور والنصوص، والتي تم جمعها تلقائيًا من الإنترنت بناءً على سمة "alt" الخاصة بالصور (وقد أطلقنا عليها اسم ALT200M). وتساعدنا التحليلات الواسعة في توصيف الاتجاهات الأداءية مع زيادة حجم النموذج وحجم بيانات التدريب المسبق. كما نقارن بين وصفات تدريب مختلفة، خصوصًا في سياق التدريب على بيانات ضخمة ومشوّشة. في النتيجة، يحقق LEMON أداءً جديدًا على أفضل المعايير في مجال إنشاء العناوين التوضيحية للصور، بما في ذلك COCO Caption وnocaps وConceptual Captions. كما نُظهر أن LEMON قادر على إنشاء عناوين توضيحية تتضمّن مفاهيم بصرية نادرة عند استخدامه بطريقة الصفر (zero-shot).