HyperAIHyperAI
منذ 2 أشهر

فصل الإدراك الثابت والهرمي للحركة لتقسيم الفيديو بالرجوع إليه

Shuting He; Henghui Ding
فصل الإدراك الثابت والهرمي للحركة لتقسيم الفيديو بالرجوع إليه
الملخص

يعتمد تقسيم الفيديو بالرجوع على التعبيرات اللغوية الطبيعية لتحديد وتقسيم الأشياء، مع التركيز غالباً على علامات الحركة. ومع ذلك، فإن الأعمال السابقة تتعامل مع الجملة كوحدة واحدة وتقوم مباشرة بتحديد الأشياء على مستوى الفيديو، مما يؤدي إلى مزج علامات الصور الثابتة مع علامات الحركة الزمنية. ومع ذلك، لا يمكن للخصائص على مستوى الصورة فهم علامات الحركة في الجمل بشكل جيد، وليس للعلامات الثابتة أهمية كبيرة في الإدراك الزمني. في الواقع، يمكن أن تعيق العلامات الثابتة الإدراك الزمني أحياناً من خلال إخفاء علامات الحركة. في هذا العمل، نقترح فصل فهم التعبير المرجعي على مستوى الفيديو إلى إدراك ثابت وإدراك حركي، مع التركيز بشكل خاص على تعزيز الفهم الزمني. أولاً، نقدم وحدة فصل التعبير لجعل العلامات الثابتة والحركة تقوم بدورها المتميز، مما يخفف مشكلة تجاهل جمل التعبير لعلامات الحركة. ثانياً، نقترح وحدة إدراك حركي متعددة المستويات لالتقاط المعلومات الزمنية بكفاءة عبر مراحل زمنية مختلفة. بالإضافة إلى ذلك، نستخدم التعلم المقارن لتمييز حركات الأشياء البصرية المشابهة. هذه المساهمات أدت إلى تحقيق أفضل الأداء في خمسة مجموعات بيانات، بما في ذلك تحسين كبير بنسبة $\textbf{9.2٪}$ في مؤشر $\mathcal{J\&F}$ على مجموعة البيانات الصعبة $\textbf{MeViS}$. الرمز البرمجي متاح على https://github.com/heshuting555/DsHmp.

فصل الإدراك الثابت والهرمي للحركة لتقسيم الفيديو بالرجوع إليه | أحدث الأوراق البحثية | HyperAI