نحو التدريب على مستوى التسلسل للتعقب البصري

رغم التبني الواسع لتعلم الآلة في مهمة تتبع الأشياء البصرية، فإن النهج المستندة إلى التعلم الحديثة قد أغفلت بشكل كبير حقيقة أن تتبع الأشياء البصرية هو مهمة على مستوى التسلسل في جوهرها؛ فهي تعتمد بشكل كبير على التدريب على المستوى الإطاري، مما يؤدي حتماً إلى عدم مطابقة بين التدريب والاختبار من حيث توزيعات البيانات وأهداف المهمة. يُقدم هذا العمل استراتيجية تدريب على مستوى التسلسل لتتبع الأشياء البصرية مستندة إلى تعلم التعزيز، ويناقش كيف يمكن أن يحسن تصميم بيانات العينة وأهداف التعلم وتوسيع البيانات على مستوى التسلسل دقة ومتانة خوارزميات التتبع. أظهرت تجاربنا على مقاييس القياس القياسية مثل LaSOT (لا سوت)، TrackingNet (شبكة تتبع)، و GOT-10k (جوت-10ك) أن أربعة نماذج تتبع تمثيلية، وهي SiamRPN++ (سيام آر بي إن بلس بلس)، SiamAttn (سيام أتن)، TransT (ترانست)، و TrDiMP (تر دي إم بي)، تتحسن باستمرار عند دمج الأساليب المقترحة في التدريب دون تعديل الهياكل.