HyperAIHyperAI

Command Palette

Search for a command to run...

ربط الرؤية واللغة من خلال السرديات الموضعية

Jordi Pont-Tuset Jasper Uijlings Soravit Changpinyo Radu Soricut Vittorio Ferrari

الملخص

نُقدّم "القصص الموضعية" (Localized Narratives)، شكلًا جديدًا من أنواع التعليقات المتعددة الوسائط على الصور، تربط بين الرؤية واللغة. نطلب من المُعلّقين وصف صورة باستخدام صوتهم، في الوقت نفسه الذي يمرّون فيه مؤشر الماوس فوق المنطقة التي يصفونها. وبما أن الصوت ومؤشر الماوس مُزامنان، يمكننا تحديد موقع كل كلمة فردية في الوصف. يأخذ هذا التثبيت البصري الكثيف شكل قطعة مسار ماوس لكل كلمة، وهو ما يميّز بياناتنا عن غيرها. تمّ تسمية 849,000 صورة باستخدام "القصص الموضعية": تشمل جميع بيانات COCO وFlickr30k وADE20K، بالإضافة إلى 671,000 صورة من بيانات Open Images، والتي نُشرت جميعها بشكل عام. ونقدّم تحليلًا مفصّلًا لهذه التعليقات، موضحين أنها متنوعة، دقيقة، وسهلة الإنتاج. كما نُظهر فعاليتها في تطبيقات التسمية المُحكَمة للصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp