HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع التدريب المسبق للرؤية واللغة لتصنيف الصور

Xiaowei Hu Zhe Gan Jianfeng Wang Zhengyuan Yang Zicheng Liu Yumao Lu Lijuan Wang

الملخص

في السنوات الأخيرة، شهدنا تحسّنًا كبيرًا في الأداء في مهمة إنشاء العناوين التوضيحية للصور (Image Captioning) بناءً على التدريب المسبق متعدد الوسائط (Vision-Language Pre-training - VLP). ويعتقد أن الحجم يُعدّ عاملًا مهمًا في هذا التقدم. ومع ذلك، يركّز معظم الأبحاث الحالية على تدريب نماذج الترانسفورمر بحجم معتدل (مثل 12 أو 24 طبقة) على نحو 4 ملايين صورة تقريبًا. في هذا البحث، نقدّم LEMON، وهو نموذج كبير الحجم لإنشاء عناوين توضيحية للصور (LargE-scale iMage captiONer)، ونقدّم أول دراسة تجريبية حول سلوك التوسع (scaling behavior) لنموذج VLP في مهام إنشاء العناوين التوضيحية للصور. نستخدم نموذج VinVL المتطور حديثًا كنموذج مرجعي، والذي يتكون من معالج ميزات الصور ونموذج ترانسفورمر، ونقوم بتوسيع النموذج وتصغيره، بحيث تتراوح أحجام النماذج بين 13 و675 مليون معلمة. من حيث البيانات، نجري تجارب باستخدام ما يصل إلى 200 مليون زوج من الصور والنصوص، والتي تم جمعها تلقائيًا من الإنترنت بناءً على سمة "alt" الخاصة بالصور (وقد أطلقنا عليها اسم ALT200M). وتساعدنا التحليلات الواسعة في توصيف الاتجاهات الأداءية مع زيادة حجم النموذج وحجم بيانات التدريب المسبق. كما نقارن بين وصفات تدريب مختلفة، خصوصًا في سياق التدريب على بيانات ضخمة ومشوّشة. في النتيجة، يحقق LEMON أداءً جديدًا على أفضل المعايير في مجال إنشاء العناوين التوضيحية للصور، بما في ذلك COCO Caption وnocaps وConceptual Captions. كما نُظهر أن LEMON قادر على إنشاء عناوين توضيحية تتضمّن مفاهيم بصرية نادرة عند استخدامه بطريقة الصفر (zero-shot).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp