HyperAIHyperAI
منذ 2 أشهر

فلامينغو: نموذج لغوي بصري للتعلم بقليل من الأمثلة

Alayrac, Jean-Baptiste ; Donahue, Jeff ; Luc, Pauline ; Miech, Antoine ; Barr, Iain ; Hasson, Yana ; Lenc, Karel ; Mensch, Arthur ; Millican, Katie ; Reynolds, Malcolm ; Ring, Roman ; Rutherford, Eliza ; Cabi, Serkan ; Han, Tengda ; Gong, Zhitao ; Samangooei, Sina ; Monteiro, Marianne ; Menick, Jacob ; Borgeaud, Sebastian ; Brock, Andrew ; Nematzadeh, Aida ; Sharifzadeh, Sahand ; Binkowski, Mikolaj ; Barreira, Ricardo ; Vinyals, Oriol ; Zisserman, Andrew ; Simonyan, Karen
فلامينغو: نموذج لغوي بصري للتعلم بقليل من الأمثلة
الملخص

بناء نماذج يمكن تكييفها بسرعة لأداء مهام جديدة باستخدام عدد قليل فقط من الأمثلة المُشَرَّحَة هو تحدي مفتوح في مجال أبحاث التعلم الآلي متعدد الوسائط. نقدم فلامينغو، عائلة من نماذج اللغة البصرية (VLM) التي تتمتع بهذه القدرة. نقترح ابتكارات هندسية أساسية لـ: (i) ربط النماذج البصرية واللغوية المُدَرَّبَة بشكل قوي ومستقل، (ii) التعامل مع سلاسل بيانات بصرية ولغوية مختلطة بشكل عشوائي، و(iii) استيعاب الصور أو الفيديوهات كمدخلات بسلاسة. بفضل مرونتها، يمكن تدريب نماذج فلامينغو على مجموعات بيانات ويب كبيرة الحجم تحتوي على نصوص وصور مختلطة بشكل عشوائي، وهو ما يعتبر حاسماً لمنحها قدرات التعلم القليل الأمثل في السياق. نقوم بتقييم شامل لنماذجنا، مستكشفين ومقيمين قدرتها على التكيف السريع لأداء مجموعة متنوعة من المهام المرتبطة بالصور والفيديوهات. وتتضمن هذه المهام مهامًا مفتوحة مثل الإجابة على الأسئلة البصرية، حيث يتم تقديم سؤال للنموذج يجب عليه الإجابة عنه؛ ومهمات التسمية، التي تقيِّم القدرة على وصف مشهد أو حدث؛ بالإضافة إلى المهام المغلقة مثل الإجابة على الأسئلة البصرية ذات الخيارات المتعددة. بالنسبة للمهام الموجودة في أي مكان على هذا الطيف، يمكن لنموذج فلامينغو واحد تحقيق مستوى جديد من الدقة باستخدام التعلم القليل الأمثل، بمجرد تقديم أمثلة خاصة بالمهمة للنموذج. وفي العديد من المقاييس، يتفوق فلامينغو على النماذج التي تم تعديلها باستخدام كميات أكبر بكثير من البيانات الخاصة بالمهمة.

فلامينغو: نموذج لغوي بصري للتعلم بقليل من الأمثلة | أحدث الأوراق البحثية | HyperAI