استغلال قوة التدريب المتعدد المهام لتحقيق تفسيرات باللغة الطبيعية على مستوى الحقيقة الواقعية

توفر التفسيرات باللغة الطبيعية وعدها بتقديم تفسيرات سهلة الفهم تلقائيًا لعملية اتخاذ القرار في الشبكات العصبية ضمن المهام البصرية-اللغوية المعقدة، كما هو متبّع في النماذج الحديثة من نوع VL-NLE. وعلى الرغم من الأداء المبهر الذي تُظهره النماذج الحالية من حيث دقة المهمة وقابلية تفسير النتائج، إلا أنها تعاني من طائفة من المشكلات: بعض النماذج تُصمم بشكل معياري حيث لا يكون وحدة توليد التفسيرات متكاملة جيدًا مع وحدة منفصلة لتنبؤ الإجابة على المهمة، أو تستخدم نماذج أساسية تم تدريبها على مجموعات محدودة من المهام، أو تُطبّق حلولًا عرضية لتعزيز الأداء على مجموعة بيانات واحدة فقط. نقترح تجاوز هذه القيود من خلال تطبيق التطورات الحديثة في التدريب المسبق متعدد المهام على نطاق واسع للنماذج التوليدية القائمة على مُحَوِّل (Transformer) على مشكلة مهام VL-NLE. يتفوق نهجنا على النماذج الحديثة بشكل كبير، حيث يُفضّل المُقيّمون البشريون التفسيرات المولّدة على التفسيرات الحقيقية (ground truth) في اثنين من أصل ثلاث مجموعات بيانات تم تقييمها. كتحدٍ جديد في بحوث VL-NLE، نقترح مشكلة VL-NLE متعددة المهام، ونُظهر أن التدريب المشترك على مهام متعددة يمكن أن يُحسّن جودة التفسيرات. ونناقش الآثار الأخلاقية لتكوين تفسيرات عالية الجودة باللغة الطبيعية، بالإضافة إلى قضايا أخرى تواجهها الأبحاث الحديثة في مجال VL-NLE.