منذ 17 أيام

توحيد مهام الرؤية واللغة من خلال التوليد النصي

Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal

الملخص

تتطلب الطرق الحالية لتعلم الرؤية واللغة عادة تصميم هياكل وأهداف مخصصة لكل مهمة. على سبيل المثال، يُستخدم تصنيف إجابات متعددة العلامات في الإجابة على الأسئلة البصرية، ومحسّس مناطق في فهم التعبيرات الإشارية، وفكّ تشفير لغوي في إنشاء عناوين صور، وغيرها. ولتخفيف هذه التعقيدات، نقترح في هذا العمل إطارًا موحدًا يتعلم مهامًا مختلفة ضمن بنية واحدة وبهدف تطوير نموذج لغوي موحد، أي توليد نصي متعدد الوسائط الشرطي، حيث تتعلم نماذجنا إنتاج العلامات نصيًا بناءً على المدخلات البصرية والنصية. وعلى 7 معايير شائعة في مجال الرؤية واللغة، بما في ذلك الإجابة على الأسئلة البصرية، وفهم التعبيرات الإشارية، والتفكير البصري بالمعنى العام، والتي تم نمذجتها سابقًا كمهام تمييزية، يحقق نهجنا التوليدي (باستخدام بنية موحدة واحدة) أداءً مماثلًا للنماذج الحديثة الأفضل في مجال الرؤية واللغة التي تم تخصيصها لكل مهمة. علاوة على ذلك، يُظهر نهجنا التوليدي قدرة تعميم أفضل على الأسئلة التي تكون إجاباتها نادرة. كما نوضح أن إطارنا يسمح بتعلم متعدد المهام في بنية واحدة باستخدام مجموعة واحدة من المعاملات، مما يحقق أداءً مشابهًا للنماذج المخصصة لكل مهمة التي تم تحسينها بشكل منفصل. يُمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط التالي: https://github.com/j-min/VL-T5