Command Palette
Search for a command to run...
ابحث أولًا، راقب لاحقًا: فصل التعرف والانتشار في التجزئة الموضوعية للفيديو المرجعي
ابحث أولًا، راقب لاحقًا: فصل التعرف والانتشار في التجزئة الموضوعية للفيديو المرجعي
Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun
الملخص
يهدف التمييز المبني على الإشارة في مقاطع الفيديو إلى تجزئة وتعقب كائن مستهدف في مقطع فيديو باستخدام مُدخل نصي طبيعي. تُعتمد الطرق الحالية عادةً على دمج الميزات البصرية والنصية بطريقة متشابكة للغاية، حيث يتم معالجة المعلومات متعددة الوسائط معًا لإنتاج أقنعة لكل إطار. ومع ذلك، غالبًا ما تواجه هذه الطريقة صعوبات في تحديد الكائن المستهدف بدقة، خاصة في المشاهد التي تحتوي على كائنات متعددة مشابهة، كما تفشل في ضمان استمرارية نقل القناع عبر الإطارات. لمعالجة هذه القيود، نقدّم "FindTrack"، إطارًا جديدًا مُفصَّلًا يفصل بين عملية تحديد الكائن وعملية نقل القناع. يبدأ FindTrack باختيار إطار رئيسي تلقائيًا من خلال تحقيق توازن بين ثقة التجزئة وتوافق الرؤية مع النص، مما يُشكّل مرجعًا قويًا للكائن المستهدف. ثم يستخدم هذا المرجع وحدة مخصصة لنقل القناع لتتبع وتمييز الكائن عبر مقطع الفيديو بأكمله. وبفضل فصل هذه العمليات، يقلل FindTrack بشكل فعّال من الغموض في ربط الكائنات ويعزز اتساق التجزئة. ونُظهر من خلال التجارب أن FindTrack يتفوق على الطرق الحالية في المعايير العامة المفتوحة.