GIT: نموذج تحويلي توليدية من الصورة إلى النص للرؤية واللغة

في هذه الورقة، نصمم وندرّب نموذجًا توليدياً لتحويل الصور إلى نصوص يُسمى GIT، بهدف توحيد مهام الرؤية واللغة مثل توليد عناوين الصور/مقاطع الفيديو والإجابة على الأسئلة. بينما توفر النماذج التوليدية بنية شبكة متسقة بين مرحلة التدريب المسبق والتحسين الدقيق، فإن العمل الحالي غالبًا ما يعتمد على هيكل معقد (مُشفّر/مُفكّك أحادي/متعدد الوسائط) ويستند إلى وحدات خارجية مثل كاشفات الكائنات أو علامات التصنيف أو التعرف البصري على النصوص (OCR). في GIT، نبسط البنية إلى مشفر صور واحد وفكّار نص واحد ضمن مهمة نمذجة لغوية واحدة. كما نُكثّف بيانات التدريب وحجم النموذج لتعزيز أدائه. وبلا تعقيدات إضافية، يُحقّق GIT أداءً جديدًا على مستوى الحد الأقصى في 12 معيارًا صعبًا بفارق كبير. على سبيل المثال، تفوّق نموذجنا لأول مرة على الأداء البشري في معيار TextCaps (138.2 مقابل 125.5 في مقياس CIDEr). علاوةً على ذلك، نقدّم نموذجًا جديدًا للتصنيف القائم على التوليد للصور والاعتراف بالنصوص في المشهد، ونحقق أداءً مقبولًا على المعايير القياسية. تم إصدار الشفرات على الرابط التالي: \url{https://github.com/microsoft/GenerativeImage2Text}.