HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق الموحّد للرؤية واللغة لتأليف العناوين التوضيحية للصور والأسئلة والأجوبة البصرية

Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao

الملخص

تُقدّم هذه الورقة نموذجًا موحدًا للتدريب المسبق للرؤية واللغة (VLP). يتميز هذا النموذج بالوحدة من حيث: (1) إمكانية تكييفه لمهام إنشاء الرؤية واللغة (مثل وصف الصور) أو مهام فهمها (مثل الإجابة على الأسئلة البصرية)، و(2) استخدام شبكة متعددة الطبقات من نموذج الترانسفورمر المشتركة في كل من الترميز (الإدخال) والفك (الإخراج)، وهو ما يختلف عن العديد من الأساليب الحالية التي تُطبّق المشغل (المرسل) والمتلقّي (المرسل العكسي) باستخدام نماذج منفصلة. يتم تدريب النموذج الموحّد للرؤية واللغة على كمّ كبير من أزواج الصور والنصوص باستخدام أهداف تعلّم غير مراقب لمهامتين: التنبؤ بالرؤية واللغة المُقنّع ثنائي الاتجاه (bidirectional) وتنبؤ التسلسل إلى التسلسل (seq2seq). تختلف هاتان المهمتان فقط في السياق الذي يعتمد عليه التنبؤ. ويتم التحكم في ذلك من خلال استخدام أقنعة انتباه ذاتي محددة للشبكة الترانسفورمر المشتركة. إلى حد معرفتنا، فإن نموذج VLP هو أول نموذج تم الإبلاغ عنه يحقق نتائج من الدرجة المتميزة (state-of-the-art) في كلا نوعي المهام: إنشاء الرؤية واللغة وفهمها، رغم اختلاف طبيعتهما، مثل وصف الصور والإجابة على الأسئلة البصرية، على ثلاث مجموعات معيارية صعبة: COCO Captions، Flickr30k Captions، وVQA 2.0. يتوفر الكود والنماذج المُدرّبة مسبقًا على الرابط التالي: https://github.com/LuoweiZhou/VLP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp