HyperAIHyperAI
منذ 17 أيام

مُحَوِّلات الفيديو ذات المناطق الكائنية

Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson
مُحَوِّلات الفيديو ذات المناطق الكائنية
الملخص

في الآونة الأخيرة، أظهرت نماذج التحويلات الفيديو (video transformers) نجاحًا كبيرًا في فهم الفيديو، حيث تفوقت على أداء الشبكات العصبية التلافيفية (CNN)، ومع ذلك، لا تُنظِّم النماذج الحالية من التحويلات الفيديو تمثيلات الكائنات صراحةً، رغم أن الكائنات قد تكون ضرورية لتحديد الأفعال. في هذا العمل، نقدّم نموذج "تحويلات الفيديو القائمة على المناطق الكائنية" (Object-Region Video Transformers - ORViT)، وهو نهج متمحور حول الكائنات (object-centric) يوسع طبقات التحويلة الفيديو بإضافة كتلة (block) تُدمج تمثيلات الكائنات بشكل مباشر. الفكرة الأساسية تكمن في دمج التمثيلات المتمحورة حول الكائنات ابتداءً من الطبقات المبكرة، ثم نقلها عبر طبقات التحويلة، مما يؤثر على التمثيلات الزمانية-المكانية في جميع أنحاء الشبكة. تتكون كتلة ORViT من تدفقين على مستوى الكائن: تدفق البُعد البصري (appearance) وتدفق الديناميكية (dynamics). في تدفق البُعد البصري، يُطبّق وحدة "الانتباه إلى منطقة الكائن" (Object-Region Attention) انتباه ذاتي على البُقع (patches) و"مناطق الكائنات" (object regions)، مما يتيح تفاعلًا بين مناطق الكائنات البصرية والرموز المتجانسة (patch tokens)، ويُثري هذه الرموز بمعلومات كائنية سياقية. بالإضافة إلى ذلك، نُعدّل ديناميكية الكائنات عبر وحدة منفصلة تُسمى "وحدة الديناميكية الكائنية" (Object-Dynamics Module)، التي تُسجّل التفاعلات في المسارات (المسارات الزمنية)، ونُبيّن كيفية دمج هذين التدفقين. تم تقييم نموذجنا على أربع مهام وخمس مجموعات بيانات: التعرف على الأفعال المركبة والقليل من الأمثلة (few-shot) على SomethingElse، وتحديد الأفعال الزمانية-المكانية على AVA، والتعرف القياسي على الأفعال على Something-Something V2 وDiving48 وEpic-Kitchen100. أظهرت النتائج تحسنًا قويًا في الأداء على جميع المهام والبيانات المدروسة، مما يثبت قيمة النموذج الذي يدمج تمثيلات الكائنات في بنية التحويلة. يمكن الاطلاع على الكود والنموذج المُدرّب مسبقًا من خلال صفحة المشروع على الرابط: \url{https://roeiherz.github.io/ORViT/}