HyperAIHyperAI
منذ 11 أيام

STEm-Seg: التضمينات الفضائية-الزمنية للتفصيل الفردي في الفيديوهات

Ali Athar, Sabarinath Mahadevan, Aljoša Ošep, Laura Leal-Taixé, Bastian Leibe
STEm-Seg: التضمينات الفضائية-الزمنية للتفصيل الفردي في الفيديوهات
الملخص

تتبع الطرق الحالية لفصل الهوية في الفيديوهات عادةً مسارات متعددة المراحل التي تعتمد على نموذج تتبع من خلال الكشف، وتحوّل شريحة فيديو إلى تسلسل من الصور. وتُستخدم شبكات متعددة للكشف عن الكائنات في الإطارات الفردية، ثم تُربط هذه الكشوف عبر الزمن. وبالتالي، غالبًا ما تكون هذه الطرق غير قابلة للتدريب من النهاية إلى النهاية، ومرتبطة بشكل وثيق بمهام محددة. في هذه الورقة، نقترح نهجًا مختلفًا مناسبًا لسلسلة متنوعة من المهام المتعلقة بفصل الهوية في الفيديوهات. وبشكل خاص، نُمثل شريحة فيديو كحالة واحدة ثلاثية الأبعاد في الفضاء والزمن، ونُقدّم منهجية جديدة تُفصّل وتتبع الكائنات عبر الفضاء والزمن في مرحلة واحدة. ويتمحور صيغة المشكلة لدينا حول فكرة التضمينات الفضائية الزمنية، التي تُدرّب لجمع البكسلات المنتمية إلى كائن معين عبر كامل شريحة الفيديو. ولتحقيق ذلك، نُقدّم (أ) دوال خلط جديدة تعزز تمثيل الميزات للضمنيات الفضائية الزمنية، و(ب) شبكة واحدة المرحلة، خالية من الاقتراحات، قادرة على الاستدلال حول السياق الزمني. وتدرب الشبكة من النهاية إلى النهاية لتعلم التضمينات الفضائية الزمنية، فضلًا عن المعاملات المطلوبة لجمع هذه التضمينات، مما يبسط عملية الاستدلال. وتحقق طريقة العمل لدينا نتائج رائدة في عدة مجموعات بيانات ومهمات. وتم توفير الكود والنموذج على الرابط: https://github.com/sabarim/STEm-Seg.

STEm-Seg: التضمينات الفضائية-الزمنية للتفصيل الفردي في الفيديوهات | أحدث الأوراق البحثية | HyperAI