
الفعالية والقابلية للتفهم هما خصائص أساسيتان لنظم الذكاء الاصطناعي الموثوقة. تركز معظم الدراسات الحديثة في مجال الاستدلال البصري على تحسين دقة الإجابات المتوقعة، مع إيلاء اهتمام أقل لتوضيح الأسباب وراء القرارات. نتيجة لذلك، فإنها غالبًا ما تستفيد من التحيزات الزائفة بدلاً من القيام بالاستدلال الحقيقي على البيانات البصرية-النصية، ولم تطور بعد القدرة على شرح عملية صنع القرار من خلال النظر إلى المعلومات الأساسية من كلا النمطين. يهدف هذا البحث إلى سد هذه الفجوة من ثلاث زوايا مختلفة: أولاً، نحدد نوعًا جديدًا من الشرح متعدد الوسائط الذي يشرح القرارات عن طريق التنقل التدريجي في عملية الاستدلال وتثبيت الكلمات الرئيسية في الصور. نطور برنامجًا وظيفيًا لتنفيذ خطوات الاستدلال المختلفة بشكل متسلسل وإنشاء مجموعة بيانات جديدة تحتوي على 1,040,830 شرحًا متعدد الوسائط. ثانيًا، نحدد الحاجة الحرجة لربط المكونات الهامة بين النمطيْن البصري والنصي بشكل وثيق لشرح القرارات، ونقترح طريقة جديدة لإنشاء الشرح تُظهر صراحةً التوافق الثنائي بين الكلمات ومناطق الاهتمام. هذا يحسن قدرة التثبيت البصري بمقدار كبير، مما يؤدي إلى زيادة القابلية للتفهم وأداء الاستدلال. ثالثاً، باستخدام بياناتنا الجديدة وطرقنا، نقوم بتحليلات موسعة لدراسة فعالية شرحنا في ظروف مختلفة، بما في ذلك التعلم متعدد المهام والتعلم النقل. رمز البرمجيات ومجموعة البيانات متاحة على الرابط:https://github.com/szzexpoi/rex.