Command Palette
Search for a command to run...
MATRIX: مصفوفة محاذاة التتبع للتفاعل في إنشاء مقاطع الفيديو
Siyoon Jin Seongchan Kim Dahyun Chung Jaeho Lee Hyunwook Choi Jisu Nam Jiyoung Kim Seungryong Kim

الملخص
لقد حققت نماذج الفيديو المبنية على نماذج التحويل (Video DiTs) تقدماً كبيراً في توليد الفيديو، إلا أنها ما زالت تواجه صعوبات في نمذجة التفاعلات متعددة الكيانات أو التفاعلات بين الموضوعات والكائنات. هذا يطرح سؤالاً محورياً: كيف تمثل هذه النماذج التفاعلات داخلياً؟ وللإجابة على هذا السؤال، قمنا بجمع مجموعة بيانات فيديو بعنوان MATRIX-11K، تتضمن وصفاً واعياً للتفاعلات، ومسارات تظليل متعددة الكيانات. باستخدام هذه المجموعة، أجرينا تحليلًا منهجياً يُصاغ من خلال رؤيتين رئيسيتين لنموذج Video DiTs: التأصيل الدلالي، من خلال الانتباه من الفيديو إلى النص، والذي يقيّم ما إذا كانت عناصر الأسماء والأفعال قادرة على التقاط الكيانات وعلاقاتها؛ وانتشار الدلالة، من خلال الانتباه من الفيديو إلى الفيديو، والذي يقيّم ما إذا استمرت الارتباطات بين الكيانات عبر الإطارات المختلفة. وجدنا أن كلا التأثيرين يتركزان في مجموعة صغيرة من الطبقات التي تهيمن على التفاعلات. ومستوحين من هذه النتيجة، نقدم MATRIX، وهي تقنية تنظيم بسيطة وفعالة، تُحاكي الانتباه في طبقات محددة من نماذج Video DiTs مع مسارات التظليل متعددة الكيانات المستمدة من مجموعة بيانات MATRIX-11K، مما يعزز كل من التأصيل والانتشار. كما نقترح InterGenEval، وهي بروتوكول تقييم مخصص لتوليد الفيديو الواعي بالتفاعلات. وفي التجارب، أظهرت MATRIX تحسناً في واقعية التفاعلات والانسجام الدلالي، مع تقليل الانحراف والوهم. وتم التحقق من صحة اختيار التصميم من خلال تحليلات واسعة. وسيتم إصدار الشيفرة البرمجية وأوزان النموذج لاحقاً.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.