HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم متحولات المكان والزمان لتعقب الصور البصرية

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

الملخص

في هذا البحث، نقدم هندسة تتبع جديدة تستخدم مُحولًا (Transformer) مكوّنًا من مُشفّر (Encoder) ومُفكّك (Decoder) كعنصر رئيسي. يقوم المُشفّر بنمذجة الارتباطات المكانية-الزمانية الشاملة بين الأهداف والمناطق البحثية، بينما يتعلم المُفكّك تمثيل الاستفسارات لتنبؤ بمواقع الأهداف المكانية. طريقتنا تعتبر تتبع الأجسام كمشكلة مباشرة في التنبؤ بصناديق الحدود، دون استخدام أي مقترحات أو نقاط ثابتة محددة مسبقًا. باستخدام محول المُشفّر والمُفكّك، يتم التنبؤ بالأجسام باستخدام شبكة تلافيفية كاملة بسيطة، التي تقدير زوايا الأجسام مباشرة. الطريقة بأكملها هي من النهاية إلى النهاية، ولا تحتاج إلى خطوات معالجة ما بعد مثل نافذة الكوزاين وتمهيد صناديق الحدود، مما يبسط بشكل كبير أنابيب التتبع الموجودة. حقق المحول المقترح أداءً على مستوى الدولة في خمسة مقاييس تحدي قصيرة ومتوسطة المدى صعبة، بينما يعمل بسرعة الوقت الحقيقي، وهو أسرع 6 مرات من Siam R-CNN. تم إصدار الرموز والنموذج بشكل مفتوح المصدر على الرابط: https://github.com/researchmm/Stark.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp