توحيد التتبع البصري والتحريك البصري-اللغوي من خلال التعلم التبايني

تهدف التتبعات ذات الكائن الواحد إلى تحديد موقع الكائن المستهدف في تسلسل فيديو وفقًا للحالة المحددة بواسطة مراجع متعددة الأشكال، بما في ذلك المستطيل المحيط الابتدائي (BBOX)، أو اللغة الطبيعية (NL)، أو كليهما معًا (NL+BBOX). نظرًا للفراغ الموجود بين الأنواع المختلفة من المراجع، تم تصميم معظم المُتتبعات الحالية لمعالجة نوع واحد أو جزء من هذه الإعدادات، مع تخصص مفرط في نوع محدد من المراجع. على النقيض من ذلك، نقدّم متتبعًا موحدًا يُدعى UVLTrack، والذي يمكنه معالجة جميع إعدادات المراجع الثلاثة (BBOX، NL، NL+BBOX) باستخدام نفس المعلمات. يتميز UVLTrack بعدة مزايا. أولاً، قمنا بتصميم مستخرج ميزة موحد الأشكال لتعلم ميزات مرئية ولغوية مشتركة، واقترحنا خسارة تقابلية متعددة الأشكال لتوحيد ميزات البصرية واللغوية في فضاء معنوي موحد. ثانيًا، تم اقتراح رأس مربع متكيف مع الأشكال، والذي يستغل بشكل كامل مرجع الهدف لاستخراج ميزات سياقية متغيرة باستمرار من سياق الفيديو بشكل ديناميكي، وتمييز الهدف بطريقة تقابلية، مما يضمن أداءً قويًا في مختلف إعدادات المراجع. أظهرت النتائج التجريبية الواسعة أن UVLTrack يحقق أداءً واعدًا على سبعة مجموعات بيانات لتتبع البصر، وثلاث مجموعات بيانات لتتبع البصر واللغة، وثلاث مجموعات بيانات لتثبيت البصر. سيتم فتح الشفرة النموذجية والنموذج على الرابط التالي: https://github.com/OpenSpaceAI/UVLTrack.