HyperAIHyperAI

Command Palette

Search for a command to run...

STVGFormer: تأريخ الفيديو المكاني-الزماني مع فهم عابر للأنماط الثابتة-الديناميكية

Zihang Lin Chaolei Tan Jian-Fang Hu Zhi Jin Tiancai Ye Wei-Shi Zheng

الملخص

في هذا التقرير الفني، نقدم حلنا لمهمة ترسيخ الفيديو المكاني-زماني المتمحورة حول الإنسان. نقترح إطارًا موجزًا وفعالًا يُسمى STVGFormer، والذي يُنمذج الارتباطات البصرية-اللغوية المكانية-الزمانية باستخدام فرع ثابت وفرع ديناميكي. يقوم الفرع الثابت بفهم متعدد الوسائط في الإطار الواحد ويتعلم تحديد موقع الكائن المستهدف مكانياً بناءً على مؤشرات بصرية داخل الإطار مثل مظهر الكائن. أما الفرع الديناميكي فيقوم بفهم متعدد الوسائط عبر إطارات متعددة. يتعلم التنبؤ بوقت بداية ونهاية اللحظة المستهدفة بناءً على مؤشرات بصرية ديناميكية مثل الحركات. تم تصميم كلا الفرعين الثابت والديناميكي كمتغيرات متعددة الوسائط. كما صممنا كتلة تفاعل ثابت-ديناميكي جديدة تمكن الفرعين من نقل المعلومات المفيدة والمكملة من أحدهما إلى الآخر، مما أثبت فعاليته في تحسين التوقعات في الحالات الصعبة. حققت الطريقة المقترحة نسبة vIoU بلغت 39.6٪ وفازت بالمركز الأول في المسار HC-STVG من تحدي Person in Context الرابع (4th Person in Context Challenge).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
STVGFormer: تأريخ الفيديو المكاني-الزماني مع فهم عابر للأنماط الثابتة-الديناميكية | مستندات | HyperAI