HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المتأصل للصورة واللغة

الملخص

يقدم هذا البحث نموذجًا مُرتكزًا للتدريب المسبق على اللغة والصورة (GLIP) لتعلم تمثيلات بصرية غنية بالمعنى ومُدركة للغة ومستوية الأشياء. يُوحِّد GLIP كلاً من اكتشاف الأشياء وتثبيت الجمل في التدريب المسبق. تجلب هذه الوحدة فائدتين رئيسيتين: 1) تسمح لـ GLIP بتعلم البيانات من كلٍ من اكتشاف الأشياء وتثبيت الجمل، مما يحسن أداء كلا المهمتين ويُساعده على بناء نموذج جيد للتثبيت؛ 2) يمكن لـ GLIP الاستفادة من مجموعات ضخمة من أزواج الصور والنصوص بإنشاء صناديق تثبيت ذاتيًا، مما يجعل التمثيلات المُتعلَّمة غنية بالمعنى.في تجاربنا، قمنا بتدريب GLIP بشكل مسبق على 27 مليون مجموعة بيانات للتثبيت، بما في ذلك 3 ملايين صورة-نص مشروحة بيد الإنسان و24 مليون زوج صورة-نص تم جمعها من الإنترنت. أظهرت التمثيلات المُتعلَّمة قوةً كبيرةً في النقل بدون أمثلة (zero-shot) وبأمثلة قليلة (few-shot) إلى مهام مختلفة للاعتراف بالأشياء المستوية. 1) عند تقييمه مباشرةً على COCO وLVIS (بدون رؤية أي صور في COCO خلال التدريب المسبق)، حقق GLIP دقة AP 49.8 و26.9 على التوالي، مما يتفوق على العديد من الخطوط الأساسية الخاضعة للإشراف.2) بعد التعديل الدقيق على COCO، حقق GLIP دقة AP 60.8 في مجموعة التحقق (val) ودقة AP 61.5 في مجموعة الاختبار-التطوير (test-dev)، مما يتفوق على أفضل النتائج السابقة.3) عند نقله إلى 13 مهمة اكتشاف أشياء ثانوية، تنافس نموذج GLIP ذو الأمثلة الواحدة مع نموذج الرأس الديناميكي الخاضع للإشراف الكامل.تم إطلاق الكود في https://github.com/microsoft/GLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp