HyperAIHyperAI
منذ 2 أشهر

نمذجة متعددة السياقات مع التجانس الزمني لتقسيم الكائنات المرجعية في الفيديو

Sun-Hyuk Choi; Hayoung Jo; Seong-Whan Lee
نمذجة متعددة السياقات مع التجانس الزمني لتقسيم الكائنات المرجعية في الفيديو
الملخص

يهدف تقسيم الأشياء في الفيديو بالرجوع إلى النص (Referring Video Object Segmentation) إلى تقسيم الأشياء داخل الفيديو التي تتوافق مع وصف نصي معين. تواجه الأساليب الحالية القائمة على المتحولات (Transformers) للنمذجة الزمنية تحديات مرتبطة بعدم اتساق الاستعلامات والاعتبار المحدود للسياق. يؤدي عدم اتساق الاستعلامات إلى إنتاج أقنعة غير مستقرة لأشياء مختلفة في منتصف الفيديو. أما الاعتبار المحدود للسياق فيؤدي إلى تقسيم أشياء خاطئة بسبب فشلها في اعتبار العلاقة بين النص المعطى والحالات بشكل كافٍ. لحل هذه المشكلات، نقترح وحدة التوافق الزمني متعددة السياقات (Multi-context Temporal Consistency Module - MTCM)، والتي تتكون من مُحاذاة (Aligner) ومضخم السياق المتعدد (Multi-Context Enhancer - MCE). يعمل المحاذاة على إزالة الضوضاء من الاستعلامات ومحاذاتها لتحقيق اتساق الاستعلامات. يتنبأ مضخم السياق المتعدد بالاستعلامات ذات الصلة بالنص من خلال اعتبار سياقات متعددة. طبقنا MTCM على أربعة نماذج مختلفة، مما أدى إلى زيادة الأداء في جميعها، وبشكل خاص تحقيق 47.6 جيه آند أف (J&F) على مجموعة بيانات MeViS. يمكن الحصول على الكود من الرابط: https://github.com/Choi58/MTCM.