HyperAIHyperAI
منذ 11 أيام

ابحث أولًا، راقب لاحقًا: فصل التعرف والانتشار في التجزئة الموضوعية للفيديو المرجعي

Cho, Suhwan, Lee, Seunghoon, Lee, Minhyeok, Lee, Jungho, Lee, Sangyoun
ابحث أولًا، راقب لاحقًا: فصل التعرف والانتشار في التجزئة الموضوعية للفيديو المرجعي
الملخص

يهدف التمييز المبني على الإشارة في مقاطع الفيديو إلى تجزئة وتعقب كائن مستهدف في مقطع فيديو باستخدام مُدخل نصي طبيعي. تُعتمد الطرق الحالية عادةً على دمج الميزات البصرية والنصية بطريقة متشابكة للغاية، حيث يتم معالجة المعلومات متعددة الوسائط معًا لإنتاج أقنعة لكل إطار. ومع ذلك، غالبًا ما تواجه هذه الطريقة صعوبات في تحديد الكائن المستهدف بدقة، خاصة في المشاهد التي تحتوي على كائنات متعددة مشابهة، كما تفشل في ضمان استمرارية نقل القناع عبر الإطارات. لمعالجة هذه القيود، نقدّم "FindTrack"، إطارًا جديدًا مُفصَّلًا يفصل بين عملية تحديد الكائن وعملية نقل القناع. يبدأ FindTrack باختيار إطار رئيسي تلقائيًا من خلال تحقيق توازن بين ثقة التجزئة وتوافق الرؤية مع النص، مما يُشكّل مرجعًا قويًا للكائن المستهدف. ثم يستخدم هذا المرجع وحدة مخصصة لنقل القناع لتتبع وتمييز الكائن عبر مقطع الفيديو بأكمله. وبفضل فصل هذه العمليات، يقلل FindTrack بشكل فعّال من الغموض في ربط الكائنات ويعزز اتساق التجزئة. ونُظهر من خلال التجارب أن FindTrack يتفوق على الطرق الحالية في المعايير العامة المفتوحة.

ابحث أولًا، راقب لاحقًا: فصل التعرف والانتشار في التجزئة الموضوعية للفيديو المرجعي | أحدث الأوراق البحثية | HyperAI