HyperAIHyperAI

Command Palette

Search for a command to run...

توحيد مهام الرؤية واللغة من خلال التوليد النصي

Jaemin Cho Jie Lei Hao Tan Mohit Bansal

الملخص

تتطلب الطرق الحالية لتعلم الرؤية واللغة عادة تصميم هياكل وأهداف مخصصة لكل مهمة. على سبيل المثال، يُستخدم تصنيف إجابات متعددة العلامات في الإجابة على الأسئلة البصرية، ومحسّس مناطق في فهم التعبيرات الإشارية، وفكّ تشفير لغوي في إنشاء عناوين صور، وغيرها. ولتخفيف هذه التعقيدات، نقترح في هذا العمل إطارًا موحدًا يتعلم مهامًا مختلفة ضمن بنية واحدة وبهدف تطوير نموذج لغوي موحد، أي توليد نصي متعدد الوسائط الشرطي، حيث تتعلم نماذجنا إنتاج العلامات نصيًا بناءً على المدخلات البصرية والنصية. وعلى 7 معايير شائعة في مجال الرؤية واللغة، بما في ذلك الإجابة على الأسئلة البصرية، وفهم التعبيرات الإشارية، والتفكير البصري بالمعنى العام، والتي تم نمذجتها سابقًا كمهام تمييزية، يحقق نهجنا التوليدي (باستخدام بنية موحدة واحدة) أداءً مماثلًا للنماذج الحديثة الأفضل في مجال الرؤية واللغة التي تم تخصيصها لكل مهمة. علاوة على ذلك، يُظهر نهجنا التوليدي قدرة تعميم أفضل على الأسئلة التي تكون إجاباتها نادرة. كما نوضح أن إطارنا يسمح بتعلم متعدد المهام في بنية واحدة باستخدام مجموعة واحدة من المعاملات، مما يحقق أداءً مشابهًا للنماذج المخصصة لكل مهمة التي تم تحسينها بشكل منفصل. يُمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط التالي: https://github.com/j-min/VL-T5


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp