HyperAIHyperAI
منذ 17 أيام

التعلم القليل الامتداد متعدد الوسائط مع نماذج لغوية متجمدة

Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill
التعلم القليل الامتداد متعدد الوسائط مع نماذج لغوية متجمدة
الملخص

عند تدريب النماذج اللغوية التلقائية على نطاق كافٍ، تُظهر قدرة مميزة على تعلّم مهمة لغوية جديدة بعد توجيهها ببضع أمثلة فقط. في هذا العمل، نقدّم منهجًا بسيطًا ولكن فعّالًا لنقل هذه القدرة على التعلّم بعينة قليلة إلى البيئة متعددة الوسائط (الرؤية واللغة). باستخدام بيانات متماشية من الصور والتعليقات التوضيحية، نُدرّب نموذجًا لتمثيل الصور (vision encoder) بحيث يُمثّل كل صورة كسلسلة من التمثيلات المستمرة، بحيث يُولّد نموذج لغوي مُدرّب مسبقًا ومُجمّد، عند توجيهه بتلك السلاسل الأولية (prefix)، التعليق التوضيحي المناسب. يُنتج النظام الناتج نموذجًا متعدد الوسائط قادرًا على التعلّم بعينة قليلة، ويمتاز بقدرة مفاجئة على تعلّم مجموعة متنوعة من المهام الجديدة عند تقييده بأمثلة تمثّل سلسلة من التمثيلات المُتداخلة بين الصور والنصوص. ونُظهر أن النموذج يمكنه التعلّم السريع لكلمات الكائنات الجديدة والفئات البصرية الجديدة، وإجراء إجابة على الأسئلة البصرية باستخدام عدد قليل جدًا من الأمثلة، واستخدام المعرفة الخارجية، وذلك من خلال قياس أداء نموذج واحد على مجموعة متنوعة من المعايير المتعارف عليها والجديدة.