HyperAIHyperAI

Command Palette

Search for a command to run...

MaMMUT: معمارية بسيطة للتعلم المشترك للمهام متعددة الوسائط

الملخص

تطور نماذج اللغة قد انتقل من التصميمات القائمة على المُشفِّر-المُفكِّك إلى التصميمات القائمة فقط على المُفكِّك. بالإضافة إلى ذلك، نلاحظ أن المهمتين المتعدّدتي الوسائط الأكثر شيوعًا، وهما المهام التوليدية والمقابلة، صعب تضمينهما في هيكل واحد بشكل غير معقد، كما يتطلب الأمر تعديلات إضافية لتطبيقات المهام اللاحقة. نقترح نموذجًا جديدًا للتدريب باستخدام نموذج قائمة على المُفكِّك لمهام متعدّدة الوسائط، وهو نموذج فعّال بشكل مفاجئ في التعلّم المشترك لهذه المهام البصرية-اللغوية المتنوعة. يتم ذلك عبر نموذج بسيط يُسمّى MaMMUT، يتكون من مُشفِّر بصري واحد وفكّاك نصي، ويُمكنه تقبّل التعلّم المقابل والتوظيفي من خلال نهج مزدوج للمرور عبر الفكّاك النصي. نُظهر أن التعلّم المشترك لهذه الأهداف المتنوعة بسيط وفعّال، ويُعزّز إلى أقصى حد ممكن مشاركة الأوزان في النموذج عبر هذه المهام. علاوةً على ذلك، يتيح نفس الهيكل تمديدات مباشرة لمهام كشف الكائنات ذات المفردات المفتوحة ومهام الفيديو-اللغة. ويُعالج النموذج مجموعة متنوعة من المهام، مع الحفاظ على حجم محدود. ويحقق النموذج أداءً متقدّمًا على مستوى الحالة الحالية في مهام استرجاع الصور-النصوص والنصوص-الصور، والإجابة على الأسئلة حول الفيديو، وكشف الكائنات ذات المفردات المفتوحة، متفوّقًا على نماذج أساسية أكبر بكثير وأكثر تدريبًا تدريبًا مكثّفًا. كما يُظهر نتائج تنافسية جدًا في مهام الإجابة على الأسئلة حول الصور (VQA) ووصف الفيديو (Video Captioning)، خصوصًا بالنظر إلى حجمه. وتؤكد الدراسات التحليلية (Ablations) المرونة والفوائد المتميزة لنهجنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp