HyperAIHyperAI
منذ 11 أيام

التتبع مع التفكير وفقًا لنية الإنسان

Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie
التتبع مع التفكير وفقًا لنية الإنسان
الملخص

أحرزت التطورات في نمذجة الإدراك تقدماً كبيراً في تحسين أداء تتبع الأشياء. ومع ذلك، فإن الطرق الحالية لتحديد الكائن المستهدف في الإطار الأولية تعتمد إما على استخدام نموذج مربع أو قناع، أو على تقديم وصف لغوي صريح. وتُعد هذه الأساليب معقدة وغير فعّالة، ولا تتيح للمسرّع إمكانية التفكير الذاتي. ولذلك، تقدم هذه الدراسة مهمة تتبع جديدة تُسمى "تتبع التعليمات"، والتي تتضمن تقديم تعليمات تتبع ضمنية تتطلب من المسّرّع إجراء التتبع تلقائياً في الإطارات الفيديوية. ولتحقيق ذلك، نستكشف دمج القدرات المعرفية والتفكيرية من نموذج الرؤية واللغة الكبير (LVLM) في تتبع الأشياء. وبشكل خاص، نقترح مسّرّعاً يُسمى TrackGPT، الذي يتمكن من إجراء تتبع مبني على تفكير معقد. يبدأ TrackGPT باستخدام LVLM لفهم تعليمات التتبع، ثم يُكثّف الإشارات المتعلقة بالكائن الذي يجب تتبعه إلى تمثيلات مرجعية (referring embeddings). وبعد ذلك، يقوم المكون الانتقائي بتحقيق نتائج التتبع بناءً على هذه التمثيلات. ولتقييم أداء TrackGPT، نُنشئ معياراً لاختبار تتبع التعليمات يُسمى InsTrack، يحتوي على أكثر من ألف زوج من التعليمات-الفيديو، لغرض التدريب على التعديل بالتعليمات وتقييم الأداء. وأظهرت التجارب أن TrackGPT يحقق أداءً تنافسياً على معايير تتبع الكائنات في الفيديو المرجعية، مثل تحقيق أداءً جديدًا قياسيًا بلغ 66.5 $\mathcal{J}\&\mathcal{F}$ على مجموعة بيانات Refer-DAVIS. كما أظهر أداءً متفوّقًا في تتبع التعليمات تحت بروتوكولات تقييم جديدة. يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}.

التتبع مع التفكير وفقًا لنية الإنسان | أحدث الأوراق البحثية | HyperAI