HyperAIHyperAI
منذ 2 أشهر

TarViS: نهج موحد لتقسيم الفيديو المستند إلى الهدف

Ali Athar; Alexander Hermans; Jonathon Luiten; Deva Ramanan; Bastian Leibe
TarViS: نهج موحد لتقسيم الفيديو المستند إلى الهدف
الملخص

المجال العام لتقسيم الفيديو مجزأ حاليًا إلى مهام مختلفة تغطي عدة مقاييس. على الرغم من التقدم السريع في أحدث التقنيات، فإن الطرق الحالية غالبًا ما تكون محددة للمهمة ولا يمكنها التعميم المفاهيمي إلى مهمات أخرى. مستوحى من النهج الحديثة ذات القدرة متعددة المهام، نقترح TarViS: هندسة شبكة موحدة جديدة يمكن تطبيقها على أي مهمة تتطلب تقسيم مجموعة من الأهداف المعرفة بشكل تعسفي في الفيديو. نهجنا مرنة فيما يتعلق بكيفية تعريف المهام لهذه الأهداف، حيث يتم نمذجة الأخيرة كاستعلامات مجردة "queries" والتي تُستخدم بعد ذلك لتوقع أقنعة الأهداف بدقة البكسل. يمكن تدريب نموذج TarViS الواحد بشكل مشترك على مجموعة من قواعد البيانات التي تغطي مهام مختلفة، ويمكنه التبديل بين المهام أثناء الاستدلال دون الحاجة إلى إعادة التدريب الخاصة بالمهمة. لإثبات فعاليتها، نطبق TarViS على أربع مهام مختلفة وهي تقسيم الحالات في الفيديو (VIS)، تقسيم البانورامي في الفيديو (VPS)، تقسيم الكائنات في الفيديو (VOS) والتتبع بقيادة النماذج النقطية (PET). يحقق نموذجنا الموحد والمعتمد على التدريب المشترك أفضل الأداء في 5 من 7 مقاييس تغطي هذه المهام الأربعة، ويحقق أداءً تنافسيًا في المقاييس الأخرى الباقية. الرمز والمعلمات النموذج متاحة على الرابط التالي: https://github.com/Ali2500/TarViS

TarViS: نهج موحد لتقسيم الفيديو المستند إلى الهدف | أحدث الأوراق البحثية | HyperAI