HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة متعددة السياقات مع التجانس الزمني لتقسيم الكائنات المرجعية في الفيديو

Choi

الملخص

يهدف تقسيم الأشياء في الفيديو بالرجوع إلى النص (Referring Video Object Segmentation) إلى تقسيم الأشياء داخل الفيديو التي تتوافق مع وصف نصي معين. تواجه الأساليب الحالية القائمة على المتحولات (Transformers) للنمذجة الزمنية تحديات مرتبطة بعدم اتساق الاستعلامات والاعتبار المحدود للسياق. يؤدي عدم اتساق الاستعلامات إلى إنتاج أقنعة غير مستقرة لأشياء مختلفة في منتصف الفيديو. أما الاعتبار المحدود للسياق فيؤدي إلى تقسيم أشياء خاطئة بسبب فشلها في اعتبار العلاقة بين النص المعطى والحالات بشكل كافٍ. لحل هذه المشكلات، نقترح وحدة التوافق الزمني متعددة السياقات (Multi-context Temporal Consistency Module - MTCM)، والتي تتكون من مُحاذاة (Aligner) ومضخم السياق المتعدد (Multi-Context Enhancer - MCE). يعمل المحاذاة على إزالة الضوضاء من الاستعلامات ومحاذاتها لتحقيق اتساق الاستعلامات. يتنبأ مضخم السياق المتعدد بالاستعلامات ذات الصلة بالنص من خلال اعتبار سياقات متعددة. طبقنا MTCM على أربعة نماذج مختلفة، مما أدى إلى زيادة الأداء في جميعها، وبشكل خاص تحقيق 47.6 جيه آند أف (J&F) على مجموعة بيانات MeViS. يمكن الحصول على الكود من الرابط: https://github.com/Choi58/MTCM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نمذجة متعددة السياقات مع التجانس الزمني لتقسيم الكائنات المرجعية في الفيديو | مستندات | HyperAI