منذ 6 أشهر

الملخص

أصبح التعامل مع مقاطع الفيديو الطويلة ذات التسلسلات المعقدة والمحجوبة ظاهرة جديدة تواجهها مجتمع التجزئة الافتراضية للفيديو (VIS) في الآونة الأخيرة. ومع ذلك، تواجه الطرق الحالية قيودًا في معالجة هذه التحديات. نحن نرى أن أكبر عائق في النهج الحالية هو الفجوة بين التدريب والاستنتاج. ولسد هذه الفجوة بشكل فعّال، نقترح إطارًا عامًا لـ VIS يُدعى GenVIS، والذي يحقق أداءً متقدمًا على المعايير الصعبة دون الحاجة إلى تصميم هياكل معقدة أو إجراء معالجة إضافية بعد التدريب. وتشكل الاستراتيجية التدريبية الجوهريّة في GenVIS، والتي تتضمن نموذج تدريب مبني على الاستفسارات للتعلم التسلسلي مع تعيين جديد لعلامات الهدف. علاوة على ذلك، نقدّم ذاكرة تُمكّن من استخلاص المعلومات من الحالات السابقة بشكل فعّال. وبفضل الرؤية الجديدة التي تركز على بناء العلاقات بين الإطارات أو المقاطع المنفصلة، يمكن لـ GenVIS تنفيذها بسهولة بطريقة مباشرة (online) أو شبه مباشرة (semi-online). وقد قُمنا بتقييم منهجنا على معايير VIS الشهيرة، حيث حقق أداءً متميزًا على YouTube-VIS 2019/2021/2022 وOVIS (VIS المُحجب). وبشكل لافت، تفوقنا بشكل كبير على أفضل الأداءات الحالية على معيار VIS الطويل (OVIS)، مع تحسين بنسبة 5.6 نقطة في AP باستخدام هيكل عظمي ResNet-50. يمكن الوصول إلى الكود من خلال: https://github.com/miranheo/GenVIS.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار