HyperAIHyperAI
منذ 2 أشهر

الدمج الوسطي والدلالات متعددة المراحل وأشكالها لتعقب RGB-T الدقيق

Qiming Wang; Yongqiang Bai; Hongxing Song
الدمج الوسطي والدلالات متعددة المراحل وأشكالها لتعقب RGB-T الدقيق
الملخص

تعتبر متابعة RGB-T، وهي مهمة أساسية ضمن مجال متابعة الأهداف، قد حققت تقدماً ملحوظاً في السنوات الأخيرة. ومع ذلك، لا تزال تعاني من تحديين رئيسيين: 1) التوازن بين الأداء والكفاءة؛ 2) ندرة بيانات التدريب. لحل التحدي الثاني، استخدم بعض الطرق الحديثة الإرشادات (prompts) لضبط نماذج المتابعة المدربة مسبقًا على RGB وتوظيف المعرفة الأولية بطريقة كفؤة من حيث المعلمات. ومع ذلك، فإن هذه الطرق لا تستكشف بشكل كافٍ الأنماط المستقلة عن الوسائط وتتجاهل الثقة الديناميكية للوسائط المختلفة في السيناريوهات المفتوحة.نقترح M3PT، وهو طريقة جديدة لمتابعة RGB-T باستخدام الاندماج الوسطي والإرشادات البصرية متعددة الوسائط ومراحل متعددة للتغلب على هذه التحديات. نحن الرواد في استخدام إطار العمل المرنة للاندماج الوسطي القابل للتعديل في متابعة RGB-T، والذي يمكن أن يساعد المحرك المتابع على موازنة الأداء مع الكفاءة لتلبية مختلف احتياجات التطبيقات. بالإضافة إلى ذلك، بناءً على هذا الإطار العام، نستفيد من استراتيجيات إرشاد مرنة متعددة لتكيف النموذج المدرب مسبقًا مع استكشاف شامل لأنماط وسيلة واحدة وتحسين نمذجة الخصائص المندمجة للوسائط في سيناريوهات ذات أولويات مختلفة للوسائط، مما يتيح الاستفادة من إمكانات تعلم الإرشادات في متابعة RGB-T.عند تقييمها على ستة مقاييس صعبة موجودة بالفعل، تتفوق طرقتنا على أفضل الطرق السابقة التي تعتمد على ضبط الإرشادات مع الحفاظ على تنافسية عالية مقابل الطرق الرائدة التي تعتمد على ضبط جميع المعلمات، وذلك باستخدام فقط 0.34 مليون معلمة مدربة بدقة.

الدمج الوسطي والدلالات متعددة المراحل وأشكالها لتعقب RGB-T الدقيق | أحدث الأوراق البحثية | HyperAI