الربط البصري المشترك والتعقب باستخدام مواصفات اللغة الطبيعية

يهدف التتبع بناءً على التحديد باللغة الطبيعية إلى تحديد الهدف المُشار إليه في تسلسل صور بناءً على وصف باللغة الطبيعية. تحل الخوارزميات الحالية هذه المشكلة في خطوتين: التأصيل البصري والتتبع، حيث يتم استخدام نموذج منفصل للتأصيل البصري ونموذج آخر منفصل للتتبع، كلٌّ على حدة. يتجاهل هذا الإطار المُفصَّل الارتباط بين التأصيل البصري والتتبع، وهو أن وصفات اللغة الطبيعية توفر إشارات معنوية عامة لتحديد موقع الهدف في كلا الخطوتين. علاوةً على ذلك، يصعب تدريب هذا الإطار المُفصَّل بشكل متكامل من البداية إلى النهاية. ولحل هذه المشكلات، نقترح إطارًا موحدًا للتأصيل البصري والتتبع، يعيد صياغة المهمتين إلى مهمة واحدة موحدة: تحديد الهدف المُشار إليه بناءً على الرموز البصرية-اللغوية المعطاة. وبشكل خاص، نقترح وحدة نمذجة العلاقات من مصادر متعددة لبناء علاقة فعالة بين الرموز البصرية-اللغوية والصورة المُختبرة. بالإضافة إلى ذلك، صممنا وحدة نمذجة زمنية لتوفير إشارة زمنية بمساعدة المعلومات المعنوية العامة لنموذجنا، مما يُحسّن بشكل فعّال قدرة النموذج على التكيّف مع التغيرات في مظهر الهدف. تُظهر النتائج التجريبية الواسعة على مجموعات البيانات TNL2K وLaSOT وOTB99 وRefCOCOg أن طريقة التتبع لدينا تتفوّق على الخوارزميات الرائدة في مجال التتبع والتأصيل. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/lizhou-cs/JointNLT.