HyperAIHyperAI

Command Palette

Search for a command to run...

معرفة هدفك: يُحسّن نموذج الـ Transformer المُوجّه بالهدف من حيث التموضع الزمني والمكانية في الفيديو

Xin Gu Yaojie Shen Chenxi Luo Tiejian Luo Yan Huang Yuewei Lin Heng Fan Libo Zhang

الملخص

لقد جذبت نموذج Transformer اهتمامًا متزايدًا في مجال التعرف على الحركة والتفاعل المكاني-الزمني (STVG)، نظرًا لبPipeline المتكاملة ونتائجها الواعدة. غالبًا ما تعتمد الأساليب الحالية القائمة على Transformer في STVG على مجموعة من استعلامات الكائنات (object queries)، التي تُهيأ بشكل بسيط باستخدام الصفر، ثم تتعلم تدريجيًا معلومات الموضع المستهدفة من خلال التفاعلات المتكررة مع السمات متعددة الوسائط، وذلك لتحقيق التوصيف المكاني والزمني. وعلى الرغم من بساطة هذا النهج، فإن استعلامات الكائنات الصفرية، بسبب غيابها لمؤشرات محددة للمستهدف، تجد صعوبة في استخلاص معلومات تمييزية من التفاعلات مع السمات متعددة الوسائط في السياقات المعقدة (مثل الحالات التي تحتوي على عناصر مشتتة أو تغطية جزئية)، مما يؤدي إلى تدهور الأداء.ولحل هذه المشكلة، نقدّم نموذجًا جديدًا يُسمى "Transformer المُستشعر بالهدف لـ STVG" (TA-STVG)، والذي يهدف إلى توليد استعلامات كائنات تكيفية من خلال استكشاف مؤشرات محددة بالهدف من زوج الفيديو-النص المعطى، بهدف تحسين أداء STVG. تكمن الفكرة الأساسية في اثنين من الوحدات البسيطة ولكن الفعّالة، وهما: أخذ العينات الزمنية الموجهة بالنص (TTS) والتفعيل المكاني المُستشعر بالسمات (ASA)، اللذان يعملان بشكل متسلسل. يركّز الأول على اختيار الإشارات الزمنية ذات الصلة بالهدف من الفيديو باستخدام المعلومات النصية الشاملة، بينما يهدف الثاني إلى استغلال مزيد من المعلومات البصرية الدقيقة للخصائص الخاصة بالكائن من خلال الإشارات الزمنية المُستشعرة بالهدف المُسبقة، والتي تُستخدم في تهيئة استعلامات الكائنات. بالمقارنة مع الطرق الحالية التي تعتمد على استعلامات مُهيأة بالصفر، فإن استعلامات الكائنات في TA-STVG تُولَّد مباشرة من زوج الفيديو-النص المعطى، مما يجعلها تحمل بشكل طبيعي مؤشرات محددة بالهدف، ما يمنحها مرونة تكيفية أفضل، وتُحسّن تفاعلها مع السمات متعددة الوسائط لاستخلاص معلومات أكثر تمييزًا، وبالتالي تحسين أداء STVG.في تجاربنا على ثلاث معايير (benchmarks)، حقق TA-STVG أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art)، وتفوّق بشكل ملحوظ على النموذج الأساسي، مما يؤكد فعاليته.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp