HyperAIHyperAI

Command Palette

Search for a command to run...

التفكيك البصري للInstances باستخدام محولات الاتصال بين الإطارات

Sukjun Hwang Miran Heo Seoung Wug Oh Seon Joo Kim

الملخص

نُقدِّم حلًا جديدًا من نوع end-to-end لتصنيف المثيلات في الفيديو (VIS) يعتمد على المحولات (Transformers). في الآونة الأخيرة، أظهرت النماذج القائمة على معالجة القطع (per-clip) أداءً أفضل مقارنةً بالنماذج القائمة على الإطار الفردي (per-frame)، وذلك بفضل الاستفادة من معلومات أكثر غنىً المستمدة من عدة إطارات متتالية. ومع ذلك، تتطلب النماذج السابقة القائمة على القطع حسابات معقدة واستهلاكًا كبيرًا للذاكرة لتحقيق الاتصال بين الإطارات، مما يحد من جدواها العملية. في هذه الدراسة، نُقدِّم نموذجًا يُسمى "محولات الاتصال بين الإطارات" (Inter-frame Communication Transformers - IFC)، الذي يقلل بشكل كبير من التكلفة الحسابية والذاكرة المطلوبة لنقل المعلومات بين الإطارات من خلال ترميز فعّال للسياق داخل القطعة المدخلة. بشكل خاص، نقترح استخدام رموز ذاكرة موجزة (concise memory tokens) كوسيلة لنقل المعلومات وتلخيص مشهد كل إطار. حيث يتم تحسين ميزات كل إطار وربطها بالإطارات الأخرى من خلال تبادل المعلومات بين رموز الذاكرة التي تم ترميزها بدقة. وقد قمنا باختبار طريقةنا على أحدث مجموعات المعايير، وحققنا أداءً متقدمًا جدًا (AP 44.6 على مجموعة التحقق من YouTube-VIS 2019 باستخدام الاستدلال غير المباشر)، مع وقت تشغيل سريع جدًا (89.4 إطارًا في الثانية). كما يمكن تطبيق طريقة我们的 على الاستدلال القريب من الزمن الحقيقي (near-online inference) لمعالجة الفيديو في الزمن الفعلي بتأخير بسيط جدًا. وسيتم إتاحة الكود المصدر للاستخدام العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp