HyperAIHyperAI
منذ 7 أيام

تفسير متعدد الوسائط قائم على عدد قليل من الأمثلة للإجابة على الأسئلة المرئية

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
الملخص

يُعدّ أحد الأهداف الأساسية في الذكاء الاصطناعي القابل للتفسير (XAI) هو إنشاء أنظمة ذكية قادرة على التفكير والتفسير للبيانات الواقعية لتمكين اتخاذ قرارات موثوقة. واعترفت الدراسات الحديثة بأهمية تقديم تفسيرات سهلة الاستخدام وقابلة للتحقق من خلالها لتعزيز أنظمة الإجابة على الأسئلة البصرية (VQA) الموثوقة. يهدف هذا البحث إلى تعزيز إمكانية تفسير الإجابة على الأسئلة البصرية من منظورين: البيانات والأساليب. أولاً، نقترح مجموعة بيانات جديدة تُسمى "SME" (مجموعة بيانات التفسير متعدد الوسائط القياسية) ومهام جديدة تُسمى "FS-MEVQA" (التفسير متعدد الوسائط بعينات قليلة للإجابة على الأسئلة البصرية)، والتي تهدف إلى إنتاج تفسيرات متعددة الوسائط للعملية التفكيرية الكامنة وراء حل الأسئلة البصرية باستخدام عدد قليل من العينات التدريبية. تضم مجموعة بيانات SME 1,028,230 عينة مكونة من أسئلة، وصور، وإجابات، وتفسيرات متعددة الوسائط، مما يُسهم في تعزيز الأبحاث المتعلقة بمهام MEVQA التقليدية وFS-MEVQA. إلى حد علمنا، فإن هذه هي المجموعة الأولى من الكبيرة الحجم التي تقدم تفسيرات مشتركة بين اللغة والرؤية بناءً على الإنجليزية القياسية، بالإضافة إلى رموز تثبيت بصرية إضافية. ثانيًا، نقترح طريقة جديدة تُسمى "MEAgent" (وكيل التفسير متعدد الوسائط بدون تدريب)، تعتمد على وكيل مبني على نموذج لغوي كبير (LLM) مزود بأدوات متعددة الوسائط في بيئة مفتوحة، وذلك للاستنتاج والإجابة على الأسئلة البصرية وإنتاج تفسيرات متعددة الوسائط. يمكن 통بي MEAgent تعلّم التفسير متعدد الوسائط من مجرد N(=16) عينة تدريبية، واستغلال قدراته في البيئة المفتوحة لإنجاز مهمة FS-MEVQA على العينات الاختبارية. تُظهر النتائج التجريبية الشاملة، التي تم تقييمها باستخدام مقاييس جودة اللغة، ومقاييس الكشف البصري، ومقاييس التخصيص البصري، تفوق طريقة MEAgent في مهام FS-MEVQA. يمكن الوصول إلى الكود والبيانات الخاصة بنا عبر الرابط: https://github.com/LivXue/FS-MEVQA.

تفسير متعدد الوسائط قائم على عدد قليل من الأمثلة للإجابة على الأسئلة المرئية | أحدث الأوراق البحثية | HyperAI