HyperAIHyperAI
منذ 7 أيام

قراءة بين المسارات: تقييم الفيديو النصي على الطرق

George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas, C.V. Jawahar
قراءة بين المسارات: تقييم الفيديو النصي على الطرق
الملخص

توفر الإشارات والنصوص الموجودة حول الطرق معلومات حيوية للسائقين، وهي ضرورية لضمان التنقل الآمن وتحقيق الوعي المكاني. يُعدّ التعرف على النصوص في المشهد أثناء الحركة مشكلة صعبة، نظرًا لأن الإشارات النصية غالبًا ما تظهر لفترة قصيرة، مما يستدعي الكشف المبكر عنها من مسافات بعيدة. يجب أن تتمكن الأنظمة التي تستفيد من هذه المعلومات لمساعدة السائق من استخراج واستيعاب الإشارات البصرية والنصية من تدفق الفيديو، بالإضافة إلى التفكير على مدار الزمن. ولحل هذه المشكلة، نقدّم مجموعة بيانات جديدة تُسمى RoadTextVQA، مخصصة لمهام الإجابة على الأسئلة في الفيديو (VideoQA) في سياق دعم السائقين. تتكوّن مجموعة بيانات RoadTextVQA من 3,222 فيديو قيادة تم جمعها من عدة دول، وتم تزويدها بـ 10,500 سؤال، جميعها مبنية على نصوص أو إشارات طريق ظهرت في مقاطع الفيديو. وقد قمنا بتقييم أداء نماذج الإجابة على الأسئلة في الفيديو من الجيل الأول على مجموعة بياناتنا RoadTextVQA، مما يبرز الإمكانات الكبيرة للتحسين في هذا المجال، ويُظهر فائدة هذه المجموعة في دفع عجلة البحث حول أنظمة الدعم داخل المركبات والأسئلة متعددة الوسائط التي تراعي النصوص. تُتاح مجموعة البيانات عبر الرابط: http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa

قراءة بين المسارات: تقييم الفيديو النصي على الطرق | أحدث الأوراق البحثية | HyperAI