HyperAIHyperAI
منذ 2 أشهر

نصائح وحيل للإجابة على الأسئلة البصرية: تعلمات من تحدي عام 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel
نصائح وحيل للإجابة على الأسئلة البصرية: تعلمات من تحدي عام 2017
الملخص

يقدم هذا البحث نموذجًا متطورًا للإجابة على الأسئلة البصرية (VQA) حاز على المركز الأول في تحدي VQA لعام 2017. تعتبر مهمة الإجابة على الأسئلة البصرية ذات أهمية كبيرة في مجال أبحاث الذكاء الاصطناعي، نظرًا لطبيعتها متعددة الوسائط، بروتوكول تقييمها الواضح، وتطبيقاتها المحتملة في العالم الحقيقي. يعتمد أداء الشبكات العصبية العميقة في مجال الإجابة على الأسئلة البصرية بشكل كبير على اختيارات الهندسة المعمارية والمعلمات الفائقة. لمساعدة الأبحاث المستقبلية في هذا المجال، نصف بالتفصيل نموذجنا ذا الأداء العالي، رغم بساطته النسبية. من خلال استكشاف ضخم للهندسات المعمارية والمعلمات الفائقة يمثل أكثر من 3,000 ساعة معالجة وحدة المعالجة الرسومية (GPU)، تمكنا من تحديد النصائح والتقنيات التي أدت إلى نجاحه، وهي: إخراجات السيجmoid (sigmoid outputs)، أهداف التدريب المرنة (soft training targets)، خصائص الصور المستخرجة من الانتباه من الأسفل إلى الأعلى (image features from bottom-up attention)، تنشيطات tanh المشروطة (gated tanh activations)، تضمين الإخراج مُبَادَأ باستخدام GloVe و Google Images، دفعات صغيرة كبيرة (large mini-batches)، وإعادة ترتيب ذكي للمعلومات التدريبية. نقدم تحليلًا مفصلًا لأثر هذه التقنيات على الأداء لمساعدتهم في اختيار ما يناسبهم.

نصائح وحيل للإجابة على الأسئلة البصرية: تعلمات من تحدي عام 2017 | أحدث الأوراق البحثية | HyperAI