HyperAIHyperAI
منذ 11 أيام

إعادة التفكير في الشبكات الزمنية-المكانية مع تغطية ذاكرة محسّنة لتقسيم الكائنات في الفيديو بكفاءة

Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
إعادة التفكير في الشبكات الزمنية-المكانية مع تغطية ذاكرة محسّنة لتقسيم الكائنات في الفيديو بكفاءة
الملخص

تقدم هذه الورقة منهجًا بسيطًا ولكن فعّالًا لنموذج التوافق الزمني المكاني في سياق تقسيم كائنات الفيديو. على عكس معظم الطرق الحالية، نُنشئ التوافق مباشرة بين الإطارات دون إعادة تشفير ميزات القناع لكل كائن، مما يؤدي إلى إطار عمل سريع جدًا ومقاوم للغاية. وباستخدام هذه التوافقات، يتم استنتاج كل عقدة في الإطار المطلوب الحالي من خلال تجميع الميزات من الماضي بطريقة ترابطية. نُصِف عملية التجميع كمشكلة تصويت، ونجد أن الارتباط الداخلي القائم على الضرب القياسي يؤدي إلى استغلال غير فعّال للذاكرة، حيث يسيطر عدد صغير (ثابت) من عقد الذاكرة على التصويت بغض النظر عن الاستفسار. وبناءً على هذه الظاهرة، نقترح استخدام المسافة التربيعية السالبة لأوركليدية بدلًا من ذلك لحساب الارتباطات. وقد تحققنا من أن كل عقدة ذاكرة تكتسب فرصة للمساهمة الآن، وبيّنّا تجريبيًا أن هذا التصويت المتنوع يُفيد كلاً من كفاءة الذاكرة ودقة الاستنتاج. ويعمل التآزر بين شبكات التوافق والتوصية المتنوعة بشكل ممتاز، حيث يحقق نتائج جديدة على مستوى الحد الأقصى في كلا مجموعتي بيانات DAVIS وYouTubeVOS، مع أداء سريع بشكل ملحوظ يتجاوز 20 إطارًا في الثانية لعدد من الكائنات دون الحاجة إلى إضافات معقدة.

إعادة التفكير في الشبكات الزمنية-المكانية مع تغطية ذاكرة محسّنة لتقسيم الكائنات في الفيديو بكفاءة | أحدث الأوراق البحثية | HyperAI