HyperAIHyperAI

Command Palette

Search for a command to run...

فيتا: التجزئة الوضعية للفيديو من خلال ارتباط الرموز الكائنية

Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim

الملخص

نقدم نموذجًا جديدًا للفصل البصري للInstances في الفيديو (VIS) بشكل غير مباشر، مستندًا إلى الفرضية القائلة بأن المعلومات الموجهة نحو الكائنات بشكل صريح يمكن أن تكون مؤشرًا قويًا لفهم سياق التسلسل بأكمله. ولتحقيق ذلك، نقترح VITA، وهي بنية بسيطة مبنية فوق نموذج شائع للانقسام البصري للInstances في الصور يستند إلى مُحَوِّل (Transformer). بشكل محدد، نستخدم مُكتشف الكائنات في الصور كوسيلة لاستخلاص السياقات المخصصة للكائنات وتحويلها إلى رموز كائنات (object tokens). تُحقِّق VITA فهمًا على مستوى الفيديو من خلال ربط رموز الكائنات على مستوى الإطارات دون استخدام ميزات المُقدِّم الزماني-المكاني (spatio-temporal backbone). وباستخدام المعلومات المختزلة لبناء علاقات فعّالة بين الكائنات، تحقق VITA أفضل الأداء على معايير VIS باستخدام مُقدِّم ResNet-50: 49.8 AP و45.7 AP على YouTube-VIS 2019 و2021، و19.6 AP على OVIS. علاوةً على ذلك، وبفضل هيكلها القائم على رموز الكائنات والذي يُفصل عن ميزات المُقدِّم، تُظهر VITA مزايا عملية متعددة لم تُستكشف من قبل في الطرق السابقة لـ VIS غير المباشرة — مثل التعامل مع مقاطع فيديو طويلة وعالية الدقة باستخدام بطاقة رسوميات واحدة، وثبات (Freezing) مُكتشف الإطارات المدرب على بيانات الصور. يمكن الوصول إلى الكود عبر الرابط: https://github.com/sukjunhwang/VITA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp