HyperAIHyperAI

Command Palette

Search for a command to run...

فصل الإدراك الثابت والهرمي للحركة لتقسيم الفيديو بالرجوع إليه

Shuting He Henghui Ding

الملخص

يعتمد تقسيم الفيديو بالرجوع على التعبيرات اللغوية الطبيعية لتحديد وتقسيم الأشياء، مع التركيز غالباً على علامات الحركة. ومع ذلك، فإن الأعمال السابقة تتعامل مع الجملة كوحدة واحدة وتقوم مباشرة بتحديد الأشياء على مستوى الفيديو، مما يؤدي إلى مزج علامات الصور الثابتة مع علامات الحركة الزمنية. ومع ذلك، لا يمكن للخصائص على مستوى الصورة فهم علامات الحركة في الجمل بشكل جيد، وليس للعلامات الثابتة أهمية كبيرة في الإدراك الزمني. في الواقع، يمكن أن تعيق العلامات الثابتة الإدراك الزمني أحياناً من خلال إخفاء علامات الحركة. في هذا العمل، نقترح فصل فهم التعبير المرجعي على مستوى الفيديو إلى إدراك ثابت وإدراك حركي، مع التركيز بشكل خاص على تعزيز الفهم الزمني. أولاً، نقدم وحدة فصل التعبير لجعل العلامات الثابتة والحركة تقوم بدورها المتميز، مما يخفف مشكلة تجاهل جمل التعبير لعلامات الحركة. ثانياً، نقترح وحدة إدراك حركي متعددة المستويات لالتقاط المعلومات الزمنية بكفاءة عبر مراحل زمنية مختلفة. بالإضافة إلى ذلك، نستخدم التعلم المقارن لتمييز حركات الأشياء البصرية المشابهة. هذه المساهمات أدت إلى تحقيق أفضل الأداء في خمسة مجموعات بيانات، بما في ذلك تحسين كبير بنسبة 9.2٪\textbf{9.2٪}9.2٪ في مؤشر J&F\mathcal{J\&F}J&F على مجموعة البيانات الصعبة MeViS\textbf{MeViS}MeViS. الرمز البرمجي متاح على https://github.com/heshuting555/DsHmp.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp