HyperAIHyperAI
منذ 2 أشهر

Flickr30k Entities: جمع التوافق بين المناطق والعبارات لتطوير نماذج أثر أغنى للصورة إلى الجملة

Bryan A. Plummer; Liwei Wang; Chris M. Cervantes; Juan C. Caicedo; Julia Hockenmaier; Svetlana Lazebnik
Flickr30k Entities: جمع التوافق بين المناطق والعبارات لتطوير نماذج أثر أغنى للصورة إلى الجملة
الملخص

قد أصبحت مجموعة بيانات Flickr30k معيارًا قياسيًا لوصف الصور بالجمل. تقدم هذه الورقة بحثية Flickr30k Entities، والتي تضيف إلى 158 ألف تعليق موجود في Flickr30k ما يقارب 244 ألف سلسلة مرجعية (coreference chains)، تربط بين ذكر الكيانات نفسها في التعليقات المختلفة لنفس الصورة، وتربطها بـ 276 ألف صندوق حدودي تم توضيحه يدويًا. تعتبر مثل هذه التوضيحات ضرورية للتقدم المستمر في وصف الصور بشكل آلي وفهم اللغة المرتبطة بالسياق البصري. فهي تمكننا من تحديد معيار جديد لتوصيف ذكر الكيانات النصية في الصورة. نقدم أساسًا قويًا لهذه المهمة يجمع بين غرس صورة-نص (image-text embedding)، كاشفات للأجسام الشائعة، تصنيف الألوان، وميل نحو اختيار الأجسام الأكبر. بينما تنافس أسسنا في الدقة النماذج الأكثر تعقيدًا التي تعد من أحدث التقنيات، فإننا نظهر أن مكاسبها لا يمكن تحويلها بسهولة إلى تحسينات في مهمات مثل استرجاع الجملة-الصورة، مما يؤكد على حدود الطرق الحالية والحاجة إلى المزيد من البحث.

Flickr30k Entities: جمع التوافق بين المناطق والعبارات لتطوير نماذج أثر أغنى للصورة إلى الجملة | أحدث الأوراق البحثية | HyperAI