HyperAIHyperAI
منذ 2 أشهر

التعلم الموحد للتوالي إلى التوالي لتعقب الأشياء البصرية في النمط الفردي والمتعدد الأوضاع

Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu
التعلم الموحد للتوالي إلى التوالي لتعقب الأشياء البصرية في النمط الفردي والمتعدد الأوضاع
الملخص

في هذا البحث، نقدم إطارًا جديدًا للتعلم من تسلسل إلى تسلسل لتعقب الأشياء باستخدام الصور الملونة (RGB) والطرق متعددة الوسائط. أولاً، نقدم SeqTrack لمهام تعقب الصور الملونة (RGB). يحول هذا الإطار مسألة التعقب البصري إلى مهمة توليد تسلسلات، حيث يقوم بتوقع حدود الكائنات بطريقة ذاتية التحكم (Autoregressive). وهذا يختلف عن المتعقبين السابقين الذين يعتمدون على تصميم شبكات رأس معقدة مثل رؤوس التصنيف والتقدير. يستخدم SeqTrack هيكل تحويلي (Transformer) أساسي للشفرة والمفككة. يستند الشفرة إلى تحويلي ثنائي الاتجاه لاستخراج الخصائص، بينما تقوم المفككة بتوليد تسلسلات الحدود بشكل ذاتي التحكم باستخدام تحويلي سببي. دالة الخسارة هي ببساطة دالة العبور إلى الانتروبيا (Cross-Entropy).ثانيًا، نقدم SeqTrackv2، وهو إطار موحد للتعلم من تسلسل إلى تسلسل للمهام متعددة الوسائط. يتم توسيع هذا الإطار على أساس SeqTrack، حيث يدمج SeqTrackv2 واجهة موحدة للوسائط المساعدة ومجموعة من الرموز الدلالية للمهمة (Task-Prompt Tokens) لتحديد المهمة. هذا يمكّنه من إدارة مهام التعقب متعددة الوسائط باستخدام نموذج موحد ومجموعة واحدة من المعلمات. لا يقتصر هذا النهج للتعلم بالتسلسل على تبسيط الإطار التعقيبي فحسب، بل يظهر أيضًا أداءً فائقًا في 14 مقاييس صعبة تغطي خمس مهام تعقب واحدة ومتعددة الوسائط.الرمز البرمجي والنماذج متاحة على الرابط: https://github.com/chenxin-dlut/SeqTrackv2.

التعلم الموحد للتوالي إلى التوالي لتعقب الأشياء البصرية في النمط الفردي والمتعدد الأوضاع | أحدث الأوراق البحثية | HyperAI