Person Centric Visual Grounding
التوثيق المرئي المتمحور حول الشخص يشير إلى مهمة ربط الشخص المذكور في وصف نصي بالشخص الفعلي الظاهر في الصورة. تهدف هذه المهمة إلى تحقيق تحديد موقع دقيق وتعرف على أفراد محددين من خلال دمج المعلومات البصرية والنصية، مما يعزز دقة وكفاءة فهم المحتوى متعدد الوسائط. لهذه التقنية قيمة تطبيقية كبيرة في مجالات مثل التفاعل بين الإنسان والحاسوب، والمراقبة الذكية، واسترجاع المعلومات المتعددة الوسائط.