الملخص

تطور نماذج اللغة قد انتقل من التصميمات القائمة على المُشفِّر-المُفكِّك إلى التصميمات القائمة فقط على المُفكِّك. بالإضافة إلى ذلك، نلاحظ أن المهمتين المتعدّدتي الوسائط الأكثر شيوعًا، وهما المهام التوليدية والمقابلة، صعب تضمينهما في هيكل واحد بشكل غير معقد، كما يتطلب الأمر تعديلات إضافية لتطبيقات المهام اللاحقة. نقترح نموذجًا جديدًا للتدريب باستخدام نموذج قائمة على المُفكِّك لمهام متعدّدة الوسائط، وهو نموذج فعّال بشكل مفاجئ في التعلّم المشترك لهذه المهام البصرية-اللغوية المتنوعة. يتم ذلك عبر نموذج بسيط يُسمّى MaMMUT، يتكون من مُشفِّر بصري واحد وفكّاك نصي، ويُمكنه تقبّل التعلّم المقابل والتوظيفي من خلال نهج مزدوج للمرور عبر الفكّاك النصي. نُظهر أن التعلّم المشترك لهذه الأهداف المتنوعة بسيط وفعّال، ويُعزّز إلى أقصى حد ممكن مشاركة الأوزان في النموذج عبر هذه المهام. علاوةً على ذلك، يتيح نفس الهيكل تمديدات مباشرة لمهام كشف الكائنات ذات المفردات المفتوحة ومهام الفيديو-اللغة. ويُعالج النموذج مجموعة متنوعة من المهام، مع الحفاظ على حجم محدود. ويحقق النموذج أداءً متقدّمًا على مستوى الحالة الحالية في مهام استرجاع الصور-النصوص والنصوص-الصور، والإجابة على الأسئلة حول الفيديو، وكشف الكائنات ذات المفردات المفتوحة، متفوّقًا على نماذج أساسية أكبر بكثير وأكثر تدريبًا تدريبًا مكثّفًا. كما يُظهر نتائج تنافسية جدًا في مهام الإجابة على الأسئلة حول الصور (VQA) ووصف الفيديو (Video Captioning)، خصوصًا بالنظر إلى حجمه. وتؤكد الدراسات التحليلية (Ablations) المرونة والفوائد المتميزة لنهجنا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MaMMUT: معمارية بسيطة للتعلم المشترك للمهام متعددة الوسائط

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaMMUT: معمارية بسيطة للتعلم المشترك للمهام متعددة الوسائط

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaMMUT: معمارية بسيطة للتعلم المشترك للمهام متعددة الوسائط

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen

Weicheng Kuo AJ Piergiovanni Dahun Kim Xiyang Luo Ben Caine Wei Li Abhijit Ogale Luowei Zhou Andrew Dai Zhifeng Chen