HyperAIHyperAI

Command Palette

Search for a command to run...

المحاذاة البصرية-الدلالية العميقة لتوليد وصف الصور

Andrej Karpathy Li Fei-Fei

الملخص

نقدم نموذجًا يولد وصفًا بلغة طبيعية للصور ومناطقها. تقترب طريقتنا من استخدام مجموعات بيانات تحتوي على صور ووصف جمل لها لتعلم التوافق بين الأوضاع المتعددة للغة والبيانات البصرية. يستند نموذج التنسيق لدينا إلى تركيبة جديدة من شبكات العصبونات التلافيفية فوق مناطق الصورة، وشبكات العصبونات المتكررة ثنائية الاتجاه فوق الجمل، ومعيار هيكلي يربط بين هذين النمطين من خلال غرس متعدد الأوضاع (multimodal embedding). ثم نصف معمارية شبكة عصبية متكررة متعددة الأوضاع تستخدم التناسقات المستنتجة لتعلم كيفية إنتاج أوصاف جديدة ومناسبة لمناطق الصور. نوضح أن نموذج التنسيق لدينا يحقق نتائج في الطليعة في تجارب الاسترجاع على مجموعات بيانات Flickr8K، Flickr30K وMSCOCO. ثم نظهر أن الأوصاف المولدة تتفوق بشكل كبير على خطوط الأساس الاسترجاعية لكلٍ من الصور الكاملة وعلى مجموعة بيانات جديدة تحتوي على شروح مستوية (region-level annotations).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp