HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم الموحد للتوالي إلى التوالي لتعقب الأشياء البصرية في النمط الفردي والمتعدد الأوضاع

Xin Chen Ben Kang Jiawen Zhu Dong Wang Houwen Peng Huchuan Lu

الملخص

في هذا البحث، نقدم إطارًا جديدًا للتعلم من تسلسل إلى تسلسل لتعقب الأشياء باستخدام الصور الملونة (RGB) والطرق متعددة الوسائط. أولاً، نقدم SeqTrack لمهام تعقب الصور الملونة (RGB). يحول هذا الإطار مسألة التعقب البصري إلى مهمة توليد تسلسلات، حيث يقوم بتوقع حدود الكائنات بطريقة ذاتية التحكم (Autoregressive). وهذا يختلف عن المتعقبين السابقين الذين يعتمدون على تصميم شبكات رأس معقدة مثل رؤوس التصنيف والتقدير. يستخدم SeqTrack هيكل تحويلي (Transformer) أساسي للشفرة والمفككة. يستند الشفرة إلى تحويلي ثنائي الاتجاه لاستخراج الخصائص، بينما تقوم المفككة بتوليد تسلسلات الحدود بشكل ذاتي التحكم باستخدام تحويلي سببي. دالة الخسارة هي ببساطة دالة العبور إلى الانتروبيا (Cross-Entropy).ثانيًا، نقدم SeqTrackv2، وهو إطار موحد للتعلم من تسلسل إلى تسلسل للمهام متعددة الوسائط. يتم توسيع هذا الإطار على أساس SeqTrack، حيث يدمج SeqTrackv2 واجهة موحدة للوسائط المساعدة ومجموعة من الرموز الدلالية للمهمة (Task-Prompt Tokens) لتحديد المهمة. هذا يمكّنه من إدارة مهام التعقب متعددة الوسائط باستخدام نموذج موحد ومجموعة واحدة من المعلمات. لا يقتصر هذا النهج للتعلم بالتسلسل على تبسيط الإطار التعقيبي فحسب، بل يظهر أيضًا أداءً فائقًا في 14 مقاييس صعبة تغطي خمس مهام تعقب واحدة ومتعددة الوسائط.الرمز البرمجي والنماذج متاحة على الرابط: https://github.com/chenxin-dlut/SeqTrackv2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp