DenseCap: شبكات التحديد الكاملة بالتجعيد للوصف الكثيف

نقدم مهمة التسمية الكثيفة، والتي تتطلب من نظام الرؤية الحاسوبية تحديد ووصف المناطق البارزة في الصور بلغة طبيعية. تعمم هذه المهمة التسمية الكثيفة مهمة اكتشاف الأشياء عندما تكون الوصفات عبارة عن كلمة واحدة فقط، وتعمم أيضًا مهمة تسمية الصور عندما يغطي منطقة متوقعة واحدة كامل الصورة. لمعالجة مهام التحديد والوصف معًا، نقترح هندسة شبكة تحديد كثيفة بالكامل (FCLN) التي تعالج الصورة بتمريره الأمامي الفعّال الوحيد، ولا تحتاج إلى مقترحات مناطق خارجية، ويمكن تدريبها من البداية إلى النهاية بمراحل تحسين واحدة. تتكون الهندسة من شبكة اتصالية، وطبقة تحديد كثيف جديدة، ونموذج لغوي للشبكات العصبية المتكررة يولد سلاسل العلامات. نقيم شبكتنا على مجموعة بيانات Visual Genome، والتي تتضمن 94,000 صورة و4,100,000 تعليق مرتبط بمناطق. نلاحظ تحسينات في السرعة والدقة مقارنة بالأسس التي تعتمد على أحدث الأساليب الحالية في كل من إعدادات التوليد والاسترجاع.