HyperAIHyperAI
منذ 17 أيام

بريسمر: نموذج بصري لغوي يعتمد على خبراء متعددة المهام

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar
بريسمر: نموذج بصري لغوي يعتمد على خبراء متعددة المهام
الملخص

أظهرت النماذج البصرية-اللغوية الحديثة قدرات مبهرة على التوليد متعدد الوسائط. ومع ذلك، فإنها عادةً ما تتطلب تدريبًا لنماذج ضخمة على مجموعات بيانات ضخمة. كحل بديل أكثر قابلية للتوسع، نقدّم "بريسمر" (Prismer)، وهو نموذج بصري-لغوي فعّال من حيث البيانات والمعاملات، يعتمد على تجميع من خبراء متخصصين في مهام محددة. يقتصر تدريب "بريسمر" على عدد صغير من المكونات، بينما يتم استرداد معظم أوزان الشبكة من عدد من الخبراء المُدرّبين مسبقًا والمتاحين بسهولة، ويُبقي هذه الأوزان ثابتة (غير قابلة للتعديل) أثناء التدريب. وباستغلال خبرات من مجالات متنوعة، نُظهر أن "بريسمر" يمكنه تجميع هذه المعرفة الخبيرة بكفاءة وتأهيلها لمهام مختلفة من الاستدلال البصري-اللغوي. في تجاربنا، نُظهر أن "بريسمر" يحقق أداءً في التدريب المُعدّل والتعلم بعينات قليلة يتنافس مع أحدث النماذج المتطورة، مع الحاجة إلى ما يصل إلى مرتبة أو مرتبتيين أقل من بيانات التدريب. يمكن الوصول إلى الكود من خلال: https://github.com/NVlabs/prismer.

بريسمر: نموذج بصري لغوي يعتمد على خبراء متعددة المهام | أحدث الأوراق البحثية | HyperAI