منذ 6 أشهر

الملخص

نُقدّم "القصص الموضعية" (Localized Narratives)، شكلًا جديدًا من أنواع التعليقات المتعددة الوسائط على الصور، تربط بين الرؤية واللغة. نطلب من المُعلّقين وصف صورة باستخدام صوتهم، في الوقت نفسه الذي يمرّون فيه مؤشر الماوس فوق المنطقة التي يصفونها. وبما أن الصوت ومؤشر الماوس مُزامنان، يمكننا تحديد موقع كل كلمة فردية في الوصف. يأخذ هذا التثبيت البصري الكثيف شكل قطعة مسار ماوس لكل كلمة، وهو ما يميّز بياناتنا عن غيرها. تمّ تسمية 849,000 صورة باستخدام "القصص الموضعية": تشمل جميع بيانات COCO وFlickr30k وADE20K، بالإضافة إلى 671,000 صورة من بيانات Open Images، والتي نُشرت جميعها بشكل عام. ونقدّم تحليلًا مفصّلًا لهذه التعليقات، موضحين أنها متنوعة، دقيقة، وسهلة الإنتاج. كما نُظهر فعاليتها في تطبيقات التسمية المُحكَمة للصور.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار