HyperAIHyperAI
منذ 17 أيام

التفكيك البصري للInstances باستخدام محولات الاتصال بين الإطارات

Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim
التفكيك البصري للInstances باستخدام محولات الاتصال بين الإطارات
الملخص

نُقدِّم حلًا جديدًا من نوع end-to-end لتصنيف المثيلات في الفيديو (VIS) يعتمد على المحولات (Transformers). في الآونة الأخيرة، أظهرت النماذج القائمة على معالجة القطع (per-clip) أداءً أفضل مقارنةً بالنماذج القائمة على الإطار الفردي (per-frame)، وذلك بفضل الاستفادة من معلومات أكثر غنىً المستمدة من عدة إطارات متتالية. ومع ذلك، تتطلب النماذج السابقة القائمة على القطع حسابات معقدة واستهلاكًا كبيرًا للذاكرة لتحقيق الاتصال بين الإطارات، مما يحد من جدواها العملية. في هذه الدراسة، نُقدِّم نموذجًا يُسمى "محولات الاتصال بين الإطارات" (Inter-frame Communication Transformers - IFC)، الذي يقلل بشكل كبير من التكلفة الحسابية والذاكرة المطلوبة لنقل المعلومات بين الإطارات من خلال ترميز فعّال للسياق داخل القطعة المدخلة. بشكل خاص، نقترح استخدام رموز ذاكرة موجزة (concise memory tokens) كوسيلة لنقل المعلومات وتلخيص مشهد كل إطار. حيث يتم تحسين ميزات كل إطار وربطها بالإطارات الأخرى من خلال تبادل المعلومات بين رموز الذاكرة التي تم ترميزها بدقة. وقد قمنا باختبار طريقةنا على أحدث مجموعات المعايير، وحققنا أداءً متقدمًا جدًا (AP 44.6 على مجموعة التحقق من YouTube-VIS 2019 باستخدام الاستدلال غير المباشر)، مع وقت تشغيل سريع جدًا (89.4 إطارًا في الثانية). كما يمكن تطبيق طريقة我们的 على الاستدلال القريب من الزمن الحقيقي (near-online inference) لمعالجة الفيديو في الزمن الفعلي بتأخير بسيط جدًا. وسيتم إتاحة الكود المصدر للاستخدام العام.

التفكيك البصري للInstances باستخدام محولات الاتصال بين الإطارات | أحدث الأوراق البحثية | HyperAI