تعقب أي شيء بجودة عالية

تعقب الأشياء المرئية هو مهمة أساسية في مجال رؤية الحاسوب. مؤخرًا، أصبحت قوة خوارزميات الإدراك تزداد بشكل ملحوظ مما يسمح بتوحيد تعقب الأشياء الفردية والمتعددة وتعقب الصناديق والأقنعة. من بين هذه الخوارزميات، يجذب نموذج "Segment Anything Model" (SAM) اهتمامًا كبيرًا. في هذا التقرير، نقترح إطار عمل يُدعى HQTrack لتعقب عالي الجودة لأي شيء في مقاطع الفيديو. يتكون HQTrack بشكل أساسي من مقطع متعدد الأشياء فيديو (VMOS) ومُحسّن القناع (MR). عند تقديم الشيء المطلوب تعقبه في الإطار الأول من الفيديو، يقوم VMOS بنشر أقنعة الشيء إلى الإطار الحالي. تكون نتائج القناع في هذه المرحلة غير دقيقة بما فيه الكفاية لأن VMOS تم تدريبه على عدة مجموعات بيانات للتقسيم المتعدد للأشياء في الفيديو (VOS)، والتي لديها قدرة محدودة على التعميم إلى المشاهد المعقدة والصعبة. لتحسين جودة أقنعة التعقب بشكل أكبر، يتم استخدام نموذج MR مدرب مسبقًا لتصحيح نتائج التعقب. كدليل قوي على فعالية نهجنا، بدون استخدام أي حيل مثل زيادة البيانات أثناء الاختبار ودمج النماذج، حلّ HQTrack في المركز الثاني في تحدي تعقب وتقسيم الأشياء المرئية (VOTS2023). يمكن الحصول على الرمز والنماذج من https://github.com/jiawen-zhu/HQTrack.