HyperAIHyperAI
منذ شهر واحد

المحاذاة البصرية-الدلالية العميقة لتوليد وصف الصور

Andrej Karpathy; Li Fei-Fei
المحاذاة البصرية-الدلالية العميقة لتوليد وصف الصور
الملخص

نقدم نموذجًا يولد وصفًا بلغة طبيعية للصور ومناطقها. تقترب طريقتنا من استخدام مجموعات بيانات تحتوي على صور ووصف جمل لها لتعلم التوافق بين الأوضاع المتعددة للغة والبيانات البصرية. يستند نموذج التنسيق لدينا إلى تركيبة جديدة من شبكات العصبونات التلافيفية فوق مناطق الصورة، وشبكات العصبونات المتكررة ثنائية الاتجاه فوق الجمل، ومعيار هيكلي يربط بين هذين النمطين من خلال غرس متعدد الأوضاع (multimodal embedding). ثم نصف معمارية شبكة عصبية متكررة متعددة الأوضاع تستخدم التناسقات المستنتجة لتعلم كيفية إنتاج أوصاف جديدة ومناسبة لمناطق الصور. نوضح أن نموذج التنسيق لدينا يحقق نتائج في الطليعة في تجارب الاسترجاع على مجموعات بيانات Flickr8K، Flickr30K وMSCOCO. ثم نظهر أن الأوصاف المولدة تتفوق بشكل كبير على خطوط الأساس الاسترجاعية لكلٍ من الصور الكاملة وعلى مجموعة بيانات جديدة تحتوي على شروح مستوية (region-level annotations).