HyperAIHyperAI
منذ 2 أشهر

تعلم متحولات المكان والزمان لتعقب الصور البصرية

Bin Yan; Houwen Peng; Jianlong Fu; Dong Wang; Huchuan Lu
تعلم متحولات المكان والزمان لتعقب الصور البصرية
الملخص

في هذا البحث، نقدم هندسة تتبع جديدة تستخدم مُحولًا (Transformer) مكوّنًا من مُشفّر (Encoder) ومُفكّك (Decoder) كعنصر رئيسي. يقوم المُشفّر بنمذجة الارتباطات المكانية-الزمانية الشاملة بين الأهداف والمناطق البحثية، بينما يتعلم المُفكّك تمثيل الاستفسارات لتنبؤ بمواقع الأهداف المكانية. طريقتنا تعتبر تتبع الأجسام كمشكلة مباشرة في التنبؤ بصناديق الحدود، دون استخدام أي مقترحات أو نقاط ثابتة محددة مسبقًا. باستخدام محول المُشفّر والمُفكّك، يتم التنبؤ بالأجسام باستخدام شبكة تلافيفية كاملة بسيطة، التي تقدير زوايا الأجسام مباشرة. الطريقة بأكملها هي من النهاية إلى النهاية، ولا تحتاج إلى خطوات معالجة ما بعد مثل نافذة الكوزاين وتمهيد صناديق الحدود، مما يبسط بشكل كبير أنابيب التتبع الموجودة. حقق المحول المقترح أداءً على مستوى الدولة في خمسة مقاييس تحدي قصيرة ومتوسطة المدى صعبة، بينما يعمل بسرعة الوقت الحقيقي، وهو أسرع 6 مرات من Siam R-CNN. تم إصدار الرموز والنموذج بشكل مفتوح المصدر على الرابط: https://github.com/researchmm/Stark.