منذ 17 أيام
ربط الرؤية واللغة من خلال السرديات الموضعية
Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

الملخص
نُقدّم "القصص الموضعية" (Localized Narratives)، شكلًا جديدًا من أنواع التعليقات المتعددة الوسائط على الصور، تربط بين الرؤية واللغة. نطلب من المُعلّقين وصف صورة باستخدام صوتهم، في الوقت نفسه الذي يمرّون فيه مؤشر الماوس فوق المنطقة التي يصفونها. وبما أن الصوت ومؤشر الماوس مُزامنان، يمكننا تحديد موقع كل كلمة فردية في الوصف. يأخذ هذا التثبيت البصري الكثيف شكل قطعة مسار ماوس لكل كلمة، وهو ما يميّز بياناتنا عن غيرها. تمّ تسمية 849,000 صورة باستخدام "القصص الموضعية": تشمل جميع بيانات COCO وFlickr30k وADE20K، بالإضافة إلى 671,000 صورة من بيانات Open Images، والتي نُشرت جميعها بشكل عام. ونقدّم تحليلًا مفصّلًا لهذه التعليقات، موضحين أنها متنوعة، دقيقة، وسهلة الإنتاج. كما نُظهر فعاليتها في تطبيقات التسمية المُحكَمة للصور.