HyperAI

يهدف التأصيل البصري (VG) إلى تحديد الكائن أو المنطقة الأكثر صلة في الصورة بناءً على استعلام بلغة طبيعية. تشمل التحديات الأساسية لهذه المهمة تحديد النقطة الرئيسية للتركيز في الاستعلام، فهم محتوى الصورة، وتحديد الكائن المستهدف بدقة. يعزز التأصيل البصري ليس فقط طبيعية ودقة التفاعل بين الإنسان والكمبيوتر، بل له أيضًا قيمة تطبيقية كبيرة في مجالات مثل تسمية الصور، استرجاع المحتوى، وفهم المشهد.

RefCOCO+ testA

HYDRA

RefCOCO+ test B

RefCOCO+ val

X-VLM (base)

RefCOCO testA