HyperAIHyperAI

Command Palette

Search for a command to run...

Flickr30k Entities: جمع التوافق بين المناطق والعبارات لتطوير نماذج أثر أغنى للصورة إلى الجملة

Bryan A. Plummer Liwei Wang Chris M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik

الملخص

قد أصبحت مجموعة بيانات Flickr30k معيارًا قياسيًا لوصف الصور بالجمل. تقدم هذه الورقة بحثية Flickr30k Entities، والتي تضيف إلى 158 ألف تعليق موجود في Flickr30k ما يقارب 244 ألف سلسلة مرجعية (coreference chains)، تربط بين ذكر الكيانات نفسها في التعليقات المختلفة لنفس الصورة، وتربطها بـ 276 ألف صندوق حدودي تم توضيحه يدويًا. تعتبر مثل هذه التوضيحات ضرورية للتقدم المستمر في وصف الصور بشكل آلي وفهم اللغة المرتبطة بالسياق البصري. فهي تمكننا من تحديد معيار جديد لتوصيف ذكر الكيانات النصية في الصورة. نقدم أساسًا قويًا لهذه المهمة يجمع بين غرس صورة-نص (image-text embedding)، كاشفات للأجسام الشائعة، تصنيف الألوان، وميل نحو اختيار الأجسام الأكبر. بينما تنافس أسسنا في الدقة النماذج الأكثر تعقيدًا التي تعد من أحدث التقنيات، فإننا نظهر أن مكاسبها لا يمكن تحويلها بسهولة إلى تحسينات في مهمات مثل استرجاع الجملة-الصورة، مما يؤكد على حدود الطرق الحالية والحاجة إلى المزيد من البحث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp