HyperAIHyperAI
منذ 2 أشهر

تعلم ربط كل قطعة للتقسيم البانورامي للمقطع الفيديو

Sanghyun Woo; Dahun Kim; Joon-Young Lee; In So Kweon
تعلم ربط كل قطعة للتقسيم البانورامي للمقطع الفيديو
الملخص

المراسلة الزمنية - ربط البكسلات أو الأشياء عبر الإطارات - هي إشارة إشراف أساسية للنماذج الفيديوية. لفهم البانورامي للمشاهد الديناميكية، نوسع هذا المفهوم ليشمل كل قطعة. تحديداً، نهدف إلى تعلم التوافق الخشن على مستوى القطع والتوفيق الدقيق على مستوى البكسل معاً. نطبق هذه الفكرة من خلال تصميم هدفين تعليميين جديدين. لتأكيد اقتراحاتنا، نعتمد على نموذج توأمي عميق ونقوم بتدريب النموذج على تعلم المراسلة الزمنية على مستويين مختلفين (أي، القطعة والبكسل) بالإضافة إلى المهمة المستهدفة. في وقت الاستدلال، يقوم النموذج بمعالجة كل إطار بشكل مستقل دون أي حسابات أو معالجة ما بعد إضافية. نظهر أن نموذج الاستدلال الخاص بكل إطار يمكنه تحقيق نتائج جديدة متقدمة في مجموعتي البيانات Cityscapes-VPS و VIPER. علاوة على ذلك، بسبب كفاءته العالية، يُ�行 النموذج في جزء من الوقت (3 أضعاف) مقارنة بالنهج المتقدم السابق.注:在阿拉伯语中,术语“Cityscapes-VPS”和“VIPER”通常保留为英文,因为它们是特定的数据集名称。如果需要进一步的本地化,请告知。

تعلم ربط كل قطعة للتقسيم البانورامي للمقطع الفيديو | أحدث الأوراق البحثية | HyperAI