HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عام لتقسيم الفيديو حسب المثيل

Miran Heo Sukjun Hwang Jeongseok Hyun Hanjung Kim Seoung Wug Oh Joon-Young Lee Seon Joo Kim

الملخص

أصبح التعامل مع مقاطع الفيديو الطويلة ذات التسلسلات المعقدة والمحجوبة ظاهرة جديدة تواجهها مجتمع التجزئة الافتراضية للفيديو (VIS) في الآونة الأخيرة. ومع ذلك، تواجه الطرق الحالية قيودًا في معالجة هذه التحديات. نحن نرى أن أكبر عائق في النهج الحالية هو الفجوة بين التدريب والاستنتاج. ولسد هذه الفجوة بشكل فعّال، نقترح إطارًا عامًا لـ VIS يُدعى GenVIS، والذي يحقق أداءً متقدمًا على المعايير الصعبة دون الحاجة إلى تصميم هياكل معقدة أو إجراء معالجة إضافية بعد التدريب. وتشكل الاستراتيجية التدريبية الجوهريّة في GenVIS، والتي تتضمن نموذج تدريب مبني على الاستفسارات للتعلم التسلسلي مع تعيين جديد لعلامات الهدف. علاوة على ذلك، نقدّم ذاكرة تُمكّن من استخلاص المعلومات من الحالات السابقة بشكل فعّال. وبفضل الرؤية الجديدة التي تركز على بناء العلاقات بين الإطارات أو المقاطع المنفصلة، يمكن لـ GenVIS تنفيذها بسهولة بطريقة مباشرة (online) أو شبه مباشرة (semi-online). وقد قُمنا بتقييم منهجنا على معايير VIS الشهيرة، حيث حقق أداءً متميزًا على YouTube-VIS 2019/2021/2022 وOVIS (VIS المُحجب). وبشكل لافت، تفوقنا بشكل كبير على أفضل الأداءات الحالية على معيار VIS الطويل (OVIS)، مع تحسين بنسبة 5.6 نقطة في AP باستخدام هيكل عظمي ResNet-50. يمكن الوصول إلى الكود من خلال: https://github.com/miranheo/GenVIS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp