HyperAIHyperAI

Command Palette

Search for a command to run...

PTSEFormer: تحويلة متقدمة مُحسّنة زمنيًا ومكانية تُوجّه نحو الكشف عن الكائنات في الفيديو

Han Wang Jun Tang Xiaodong Liu Shanyan Guan Rong Xie Li Song

الملخص

في السنوات الأخيرة، شهدت تطبيقات الإطارات السياقية تطورًا ملحوظًا لتعزيز أداء الكشف عن الكائنات في تطبيقات الكشف عن الكائنات في الفيديو. تُطبّق الطرق الحالية عادةً تجميعًا للسمات دفعة واحدة لتعزيزها، لكن هذه الطرق غالبًا ما تعاني من نقص في المعلومات المكانية المستمدة من الإطارات المجاورة، وتتعرض لمشكلة تجميع غير كافٍ للسمات. ولحل هذه المشكلات، نتبع نهجًا تدريجيًا لدمج كل من المعلومات الزمنية والمعلومات المكانية بهدف تحسين متكامل. تُدخل المعلومات الزمنية من خلال نموذج تجميع السمات الزمنية (TFAM)، وذلك من خلال تطبيق آلية الانتباه بين الإطارات السياقية والإطار المستهدف (أي الإطار الذي يتم كشفه). وفي الوقت نفسه، نستخدم نموذج الوعي بالانتقال المكاني (STAM) لنقل معلومات انتقال المواقع بين كل إطار سياقي والإطار المستهدف. مبنيًا على كاشف مبني على نموذج الترانسفورمر (DETR)، يلتزم نموذجنا PTSEFormer بنمط عمل منتهي إلى منتهى (end-to-end) لتجنب العمليات ما بعد المعالجة الثقيلة، مع تحقيق دقة تصل إلى 88.1% في مؤشر mAP على مجموعة بيانات ImageNet VID. يمكن الوصول إلى الكود عبر الرابط: https://github.com/Hon-Wong/PTSEFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PTSEFormer: تحويلة متقدمة مُحسّنة زمنيًا ومكانية تُوجّه نحو الكشف عن الكائنات في الفيديو | مستندات | HyperAI