GQA: مجموعة بيانات جديدة للمنطق البصري في العالم الحقيقي وإجابة الأسئلة التركيبية

نقدم مجموعة بيانات جديدة تُعرف بـ GQA، وهي مصممة للمنطق البصري في العالم الحقيقي والإجابة على الأسئلة المركبة. تهدف هذه المجموعة إلى معالجة القصور الرئيسي في مجموعات البيانات السابقة لـ VQA (أسئلة الإجابة البصرية). لقد طورنا محرك أسئلة قويًا ومتينًا يستخدم بنية الرسم البياني للمشهد لإنشاء 22 مليون سؤال منطقي متنوع، وكلها تأتي مع برامج وظيفية تمثل معانيها. نستخدم البرامج للتحكم الدقيق في توزيع الإجابات ونقدم تقنية تنعيم قابلة للتuning (ضبط) جديدة لتخفيف التحيز في الأسئلة. تتضمن مجموعة البيانات أيضًا مجموعة من المقاييس الجديدة التي تقيم الجودات الأساسية مثل الاتساق والترابط والمعقولية. تم إجراء تحليل شامل للأساسيات وكذلك النماذج الأكثر حداثة، مما يوفر نتائج دقيقة لمختلف أنواع الأسئلة والهياكل. بينما تحصل LSTM العمياء (شبكة طويلة الأمد قصيرة الأمد) على نسبة ضئيلة تبلغ 42.1٪ فقط، فإن النماذج القوية لـ VQA تسجل 54.1٪، بينما يبلغ أداء البشر ذروته عند 89.3٪، مما يوفر فرصًا كثيرة للأبحاث الجديدة للاستكشاف. نأمل بشدة أن توفر GQA موردًا ممكّنًا للجيل القادم من النماذج ذات المتانة المحسنة والاتساق الأفضل والفهم الدلالي العميق للصور ولغة.请注意,这里的“tuning”被翻译为“ضبط”,这是一个在阿拉伯语中较为常见的对应词。如果需要更专业的术语,可以将其翻译为“微调”(التuning (الميكانيكي))。但是,根据上下文,“تنعيم قابل للضبط”听起来更加自然。此外,“LSTM”是长短期记忆网络的缩写,在括号内保留了英文原名以确保信息完整。