HyperAIHyperAI

Command Palette

Search for a command to run...

نصائح وحيل للإجابة على الأسئلة البصرية: تعلمات من تحدي عام 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

الملخص

يقدم هذا البحث نموذجًا متطورًا للإجابة على الأسئلة البصرية (VQA) حاز على المركز الأول في تحدي VQA لعام 2017. تعتبر مهمة الإجابة على الأسئلة البصرية ذات أهمية كبيرة في مجال أبحاث الذكاء الاصطناعي، نظرًا لطبيعتها متعددة الوسائط، بروتوكول تقييمها الواضح، وتطبيقاتها المحتملة في العالم الحقيقي. يعتمد أداء الشبكات العصبية العميقة في مجال الإجابة على الأسئلة البصرية بشكل كبير على اختيارات الهندسة المعمارية والمعلمات الفائقة. لمساعدة الأبحاث المستقبلية في هذا المجال، نصف بالتفصيل نموذجنا ذا الأداء العالي، رغم بساطته النسبية. من خلال استكشاف ضخم للهندسات المعمارية والمعلمات الفائقة يمثل أكثر من 3,000 ساعة معالجة وحدة المعالجة الرسومية (GPU)، تمكنا من تحديد النصائح والتقنيات التي أدت إلى نجاحه، وهي: إخراجات السيجmoid (sigmoid outputs)، أهداف التدريب المرنة (soft training targets)، خصائص الصور المستخرجة من الانتباه من الأسفل إلى الأعلى (image features from bottom-up attention)، تنشيطات tanh المشروطة (gated tanh activations)، تضمين الإخراج مُبَادَأ باستخدام GloVe و Google Images، دفعات صغيرة كبيرة (large mini-batches)، وإعادة ترتيب ذكي للمعلومات التدريبية. نقدم تحليلًا مفصلًا لأثر هذه التقنيات على الأداء لمساعدتهم في اختيار ما يناسبهم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نصائح وحيل للإجابة على الأسئلة البصرية: تعلمات من تحدي عام 2017 | مستندات | HyperAI