HyperAIHyperAI

Command Palette

Search for a command to run...

GIT: نموذج تحويلي توليدية من الصورة إلى النص للرؤية واللغة

Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang

الملخص

في هذه الورقة، نصمم وندرّب نموذجًا توليدياً لتحويل الصور إلى نصوص يُسمى GIT، بهدف توحيد مهام الرؤية واللغة مثل توليد عناوين الصور/مقاطع الفيديو والإجابة على الأسئلة. بينما توفر النماذج التوليدية بنية شبكة متسقة بين مرحلة التدريب المسبق والتحسين الدقيق، فإن العمل الحالي غالبًا ما يعتمد على هيكل معقد (مُشفّر/مُفكّك أحادي/متعدد الوسائط) ويستند إلى وحدات خارجية مثل كاشفات الكائنات أو علامات التصنيف أو التعرف البصري على النصوص (OCR). في GIT، نبسط البنية إلى مشفر صور واحد وفكّار نص واحد ضمن مهمة نمذجة لغوية واحدة. كما نُكثّف بيانات التدريب وحجم النموذج لتعزيز أدائه. وبلا تعقيدات إضافية، يُحقّق GIT أداءً جديدًا على مستوى الحد الأقصى في 12 معيارًا صعبًا بفارق كبير. على سبيل المثال، تفوّق نموذجنا لأول مرة على الأداء البشري في معيار TextCaps (138.2 مقابل 125.5 في مقياس CIDEr). علاوةً على ذلك، نقدّم نموذجًا جديدًا للتصنيف القائم على التوليد للصور والاعتراف بالنصوص في المشهد، ونحقق أداءً مقبولًا على المعايير القياسية. تم إصدار الشفرات على الرابط التالي: \url{https://github.com/microsoft/GenerativeImage2Text}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp