HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

تفسير متعدد الوسائط قائم على عدد قليل من الأمثلة للإجابة على الأسئلة المرئية

{Changsheng Xu Shengsheng Qian Dizhan Xue}

الملخص

يُعدّ أحد الأهداف الأساسية في الذكاء الاصطناعي القابل للتفسير (XAI) هو إنشاء أنظمة ذكية قادرة على التفكير والتفسير للبيانات الواقعية لتمكين اتخاذ قرارات موثوقة. واعترفت الدراسات الحديثة بأهمية تقديم تفسيرات سهلة الاستخدام وقابلة للتحقق من خلالها لتعزيز أنظمة الإجابة على الأسئلة البصرية (VQA) الموثوقة. يهدف هذا البحث إلى تعزيز إمكانية تفسير الإجابة على الأسئلة البصرية من منظورين: البيانات والأساليب. أولاً، نقترح مجموعة بيانات جديدة تُسمى "SME" (مجموعة بيانات التفسير متعدد الوسائط القياسية) ومهام جديدة تُسمى "FS-MEVQA" (التفسير متعدد الوسائط بعينات قليلة للإجابة على الأسئلة البصرية)، والتي تهدف إلى إنتاج تفسيرات متعددة الوسائط للعملية التفكيرية الكامنة وراء حل الأسئلة البصرية باستخدام عدد قليل من العينات التدريبية. تضم مجموعة بيانات SME 1,028,230 عينة مكونة من أسئلة، وصور، وإجابات، وتفسيرات متعددة الوسائط، مما يُسهم في تعزيز الأبحاث المتعلقة بمهام MEVQA التقليدية وFS-MEVQA. إلى حد علمنا، فإن هذه هي المجموعة الأولى من الكبيرة الحجم التي تقدم تفسيرات مشتركة بين اللغة والرؤية بناءً على الإنجليزية القياسية، بالإضافة إلى رموز تثبيت بصرية إضافية. ثانيًا، نقترح طريقة جديدة تُسمى "MEAgent" (وكيل التفسير متعدد الوسائط بدون تدريب)، تعتمد على وكيل مبني على نموذج لغوي كبير (LLM) مزود بأدوات متعددة الوسائط في بيئة مفتوحة، وذلك للاستنتاج والإجابة على الأسئلة البصرية وإنتاج تفسيرات متعددة الوسائط. يمكن 통بي MEAgent تعلّم التفسير متعدد الوسائط من مجرد N(=16) عينة تدريبية، واستغلال قدراته في البيئة المفتوحة لإنجاز مهمة FS-MEVQA على العينات الاختبارية. تُظهر النتائج التجريبية الشاملة، التي تم تقييمها باستخدام مقاييس جودة اللغة، ومقاييس الكشف البصري، ومقاييس التخصيص البصري، تفوق طريقة MEAgent في مهام FS-MEVQA. يمكن الوصول إلى الكود والبيانات الخاصة بنا عبر الرابط: https://github.com/LivXue/FS-MEVQA.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
fs-mevqa-on-smeMEAgent
#Learning Samples (N): 16
ACC: 51.45
BLEU-4: 67.91
CIDEr: 510.44
Detection: 29.09
METEOR: 50.55
ROUGE-L: 79.41
SPICE: 64.09

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تفسير متعدد الوسائط قائم على عدد قليل من الأمثلة للإجابة على الأسئلة المرئية | الأوراق البحثية | HyperAI