HyperAI

نموذج أساس الجغرافيا اللغوية البصرية (VLGFM)

نماذج الأساس الجغرافي للرؤية واللغة (VLGFM) هو نموذج ذكاء اصطناعي مصمم خصيصًا لمعالجة وتحليل بيانات مراقبة الأرض. ويجمع بين المعلومات البصرية واللغوية لتحسين فهم وتحليل البيانات الجغرافية المكانية. يمكن لـ VLGFM تنفيذ مجموعة متنوعة من المهام بما في ذلك المهام متعددة الوسائط مثل وصف الصورة واسترجاع نص الصورة والإجابة على الأسئلة المرئية والتحديد البصري.

تم وصف مفهوم VLGFM لأول مرة في الورقةنحو نموذج الأساس الجغرافي للرؤية واللغة: دراسة استقصائيةتم اقتراح "في ورقة مراجعة مشتركة أجراها باحثون من جامعة نانيانغ التكنولوجية، وSenseTime، ومختبر شنغهاي للذكاء الاصطناعي، وجامعة شنغهاي جياو تونغ، ونُشرت عام ٢٠٢٤. تُعد هذه الورقة أول مراجعة أدبية حول نموذج VLGFM. تناقش الورقة الاختلافات بين نموذج VLGFM والنماذج الجغرافية البصرية والنماذج الخاصة باللغة البصرية، وتلخص هياكل النماذج ومجموعات البيانات الشائعة الاستخدام لنموذج VLGFM الحالي.