HyperAIHyperAI

Command Palette

Search for a command to run...

التكثيف العالي الرتبة المتعامد عبر الوسائط لمسارح المحوّل RGB-Event

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

الملخص

يدور هذا البحث حول مشكلة تتبع الأشياء عبر الوسائط المختلفة من مقاطع الفيديو الملونة (RGB) وبيانات الحدث (event data). بدلًا من بناء شبكة تكامل عبر الوسائط معقدة، نستكشف الإمكانات الكبيرة لنموذج محول الرؤية المُدرَّب مسبقًا (Vision Transformer - ViT). وبشكل خاص، نقوم بدراسة دقيقة لتقنيات تعزيز التدريب القابلة للتركيب (plug-and-play) التي تشجع نموذج ViT على تقليل الفجوة الكبيرة في التوزيع بين الوسائط المتناظرة، مما يمكّن من تفاعل شامل بين المعلومات عبر الوسائط ويُعزز قدرته على التتبع. وبالتحديد، نقترح استراتيجية نمذجة التغطية (mask modeling) التي تُغطي عشوائيًا نوعًا معينًا من الوسائط لبعض الرموز (tokens)، بهدف إجبار التفاعلات النشطة بين الرموز القادمة من وسائط مختلفة. ولتقليل اهتزازات الشبكة الناتجة عن استراتيجية التغطية، وتعزيز التأثير الإيجابي لها، نُقدِّم نظريًا خسارة عالية الرتبة متعامدة (orthogonal high-rank loss) لتنظيم مصفوفة الانتباه. تُظهر التجارب الواسعة أن تقنيات تعزيز التدريب القابلة للتركيب التي نقترحها يمكن أن تُحسِّن بشكل كبير أداء أحدث نماذج تتبع الأشياء من نوع "التيار الواحد" (one-stream) و"التيار المزدوج" (two-stream) من حيث دقة التتبع ومعدل النجاح. إن منظورنا الجديد ونتائجنا المُكتشفة قد تُقدِّم رؤى قيمة للحقل المتعلق باستخدام نماذج ViT القوية المُدرَّبة مسبقًا لتمثيل البيانات عبر الوسائط المختلفة. وسيتم الإفصاح عن الكود المصدر بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp