HyperAIHyperAI
منذ 3 أشهر

التوافق الواحد لواحد على مستوى البكسلات لتقسيم كائنات الفيديو

Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee
التوافق الواحد لواحد على مستوى البكسلات لتقسيم كائنات الفيديو
الملخص

يهدف التجزئة الشبه المُراقبة للأجسام في الفيديو (VOS) إلى تتبع الأجسام المحددة الموجودة في الإطار الأولي للفيديو على مستوى البكسل. وللاستفادة الكاملة من معلومات المظهر الخاص بالجسم، تُستخدم طريقة مطابقة الميزات على مستوى البكسل بشكل واسع في VOS. تعمل طريقة المطابقة التقليدية بطريقة متعددة-إلى-واحدة، أي أن المطابقات المثلى فقط من إطار الاستعلام إلى إطار المرجع تُؤخذ بعين الاعتبار. ويتم ربط كل موقع في إطار الاستعلام بموقع مثالي في إطار المرجع، بغض النظر عن عدد المرات التي يُستخدم فيها كل موقع في إطار المرجع. وتعمل هذه الطريقة بشكل جيد في معظم الحالات، وهي مقاومة للتغيرات السريعة في المظهر، لكنها قد تؤدي إلى أخطاء جوهرية عندما يحتوي إطار الاستعلام على عناصر خلفية مشوهة تشبه الجسم المستهدف. ولتقليل هذه المشكلة، نُقدّم آلية مطابقة ثنائية (bijective matching) لتحديد أفضل المطابقات من إطار الاستعلام إلى إطار المرجع والعكس. قبل تحديد أفضل المطابقات لبكسلات إطار الاستعلام، يتم أولاً النظر في المطابقات المثلى لبكسلات إطار المرجع، وذلك لمنع أي بكسل في إطار المرجع من أن يُستخدم بشكل مفرط. وبما أن هذه الآلية تعمل بطريقة صارمة، أي أن البكسلات تُربط ببعضها فقط إذا كانت مطابقة مؤكدة لكل منهما، فإنها تُمكّن من إزالة العناصر الخلفية المشوهة بشكل فعّال. بالإضافة إلى ذلك، نقترح وحدة تضمين القناع (mask embedding module) لتحسين طريقة نقل القناع الحالية. من خلال تضمين عدة قناعات تاريخية مع معلومات الإحداثيات، يمكنها التقاط معلومات الموضع الخاصة بالجسم المستهدف بشكل فعّال.