HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّلات الفيديو ذات المناطق الكائنية

Roei Herzig Elad Ben-Avraham Karttikeya Mangalam Amir Bar Gal Chechik Anna Rohrbach Trevor Darrell Amir Globerson

الملخص

في الآونة الأخيرة، أظهرت نماذج التحويلات الفيديو (video transformers) نجاحًا كبيرًا في فهم الفيديو، حيث تفوقت على أداء الشبكات العصبية التلافيفية (CNN)، ومع ذلك، لا تُنظِّم النماذج الحالية من التحويلات الفيديو تمثيلات الكائنات صراحةً، رغم أن الكائنات قد تكون ضرورية لتحديد الأفعال. في هذا العمل، نقدّم نموذج "تحويلات الفيديو القائمة على المناطق الكائنية" (Object-Region Video Transformers - ORViT)، وهو نهج متمحور حول الكائنات (object-centric) يوسع طبقات التحويلة الفيديو بإضافة كتلة (block) تُدمج تمثيلات الكائنات بشكل مباشر. الفكرة الأساسية تكمن في دمج التمثيلات المتمحورة حول الكائنات ابتداءً من الطبقات المبكرة، ثم نقلها عبر طبقات التحويلة، مما يؤثر على التمثيلات الزمانية-المكانية في جميع أنحاء الشبكة. تتكون كتلة ORViT من تدفقين على مستوى الكائن: تدفق البُعد البصري (appearance) وتدفق الديناميكية (dynamics). في تدفق البُعد البصري، يُطبّق وحدة "الانتباه إلى منطقة الكائن" (Object-Region Attention) انتباه ذاتي على البُقع (patches) و"مناطق الكائنات" (object regions)، مما يتيح تفاعلًا بين مناطق الكائنات البصرية والرموز المتجانسة (patch tokens)، ويُثري هذه الرموز بمعلومات كائنية سياقية. بالإضافة إلى ذلك، نُعدّل ديناميكية الكائنات عبر وحدة منفصلة تُسمى "وحدة الديناميكية الكائنية" (Object-Dynamics Module)، التي تُسجّل التفاعلات في المسارات (المسارات الزمنية)، ونُبيّن كيفية دمج هذين التدفقين. تم تقييم نموذجنا على أربع مهام وخمس مجموعات بيانات: التعرف على الأفعال المركبة والقليل من الأمثلة (few-shot) على SomethingElse، وتحديد الأفعال الزمانية-المكانية على AVA، والتعرف القياسي على الأفعال على Something-Something V2 وDiving48 وEpic-Kitchen100. أظهرت النتائج تحسنًا قويًا في الأداء على جميع المهام والبيانات المدروسة، مما يثبت قيمة النموذج الذي يدمج تمثيلات الكائنات في بنية التحويلة. يمكن الاطلاع على الكود والنموذج المُدرّب مسبقًا من خلال صفحة المشروع على الرابط: \url{https://roeiherz.github.io/ORViT/}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُحَوِّلات الفيديو ذات المناطق الكائنية | مستندات | HyperAI