HyperAIHyperAI

Command Palette

Search for a command to run...

قراءة بين المسارات: تقييم الفيديو النصي على الطرق

George Tom Minesh Mathew Sergi Garcia Dimosthenis Karatzas C.V. Jawahar

الملخص

توفر الإشارات والنصوص الموجودة حول الطرق معلومات حيوية للسائقين، وهي ضرورية لضمان التنقل الآمن وتحقيق الوعي المكاني. يُعدّ التعرف على النصوص في المشهد أثناء الحركة مشكلة صعبة، نظرًا لأن الإشارات النصية غالبًا ما تظهر لفترة قصيرة، مما يستدعي الكشف المبكر عنها من مسافات بعيدة. يجب أن تتمكن الأنظمة التي تستفيد من هذه المعلومات لمساعدة السائق من استخراج واستيعاب الإشارات البصرية والنصية من تدفق الفيديو، بالإضافة إلى التفكير على مدار الزمن. ولحل هذه المشكلة، نقدّم مجموعة بيانات جديدة تُسمى RoadTextVQA، مخصصة لمهام الإجابة على الأسئلة في الفيديو (VideoQA) في سياق دعم السائقين. تتكوّن مجموعة بيانات RoadTextVQA من 3,222 فيديو قيادة تم جمعها من عدة دول، وتم تزويدها بـ 10,500 سؤال، جميعها مبنية على نصوص أو إشارات طريق ظهرت في مقاطع الفيديو. وقد قمنا بتقييم أداء نماذج الإجابة على الأسئلة في الفيديو من الجيل الأول على مجموعة بياناتنا RoadTextVQA، مما يبرز الإمكانات الكبيرة للتحسين في هذا المجال، ويُظهر فائدة هذه المجموعة في دفع عجلة البحث حول أنظمة الدعم داخل المركبات والأسئلة متعددة الوسائط التي تراعي النصوص. تُتاح مجموعة البيانات عبر الرابط: http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp