من هو والدو؟ ربط الأشخاص بين النصوص والصور

نقدم مجموعة مهام وبيانات مرجعية لمهمة التأصيل البصري المتمحور حول الشخص، وهي مشكلة ربط الأشخاص المذكورين في التعليق بالأشخاص المصورين في الصورة. على عكس الأعمال السابقة في مجال التأصيل البصري، والتي تركز بشكل أساسي على الأشياء، فإن مهمتنا الجديدة تخفي أسماء الأشخاص في التعليقات بهدف تشجيع الطرق التي يتم تدريبها على هذه الأزواج من الصور والتعليقات على التركيز على العلامات السياقية (مثل التفاعلات الغنية بين عدة أشخاص) بدلاً من تعلم العلاقات بين الأسماء والمظهر. لتسهيل هذه المهمة، نقدم مجموعة بيانات جديدة باسم "من هو والدو" (Who's Waldo)، تم استخراجها تلقائيًا من بيانات الصور والتعليقات على Wikimedia Commons. نقترح طريقة تعتمد على تقنية Transformer والتي تتفوق على العديد من النماذج القوية الأساسية在这项任务上,并且我们正在向研究社区发布我们的数据,以促进对同时考虑视觉和语言的上下文模型的研究。 注:最后一句中的“在这项任务上”在阿拉伯语中通常会省略,以使句子更加流畅。因此,我将其调整为:نحن نقترح طريقة تعتمد على تقنية الـTransformer والتي تتفوق على العديد من النماذج القوية الأساسية، وسنقوم بنشر بياناتنا إلى المجتمع البحثي لتشجيع العمل على نماذج سياقية تأخذ بعين الاعتبار كلًا من الرؤية واللغة.