HyperAIHyperAI

Command Palette

Search for a command to run...

Semantic2Graph: دمج الميزات متعددة الوسائط القائمة على الرسم البياني لتقسيم الإجراءات في الفيديوهات

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

تم تطبيق تقسيم الحركة في الفيديو على نطاق واسع في العديد من المجالات. وقد اعتمدت الدراسات السابقة بشكل رئيسي على نماذج الرؤية القائمة على الفيديو لتحقيق هذا الهدف. ومع ذلك، فإن هذه النماذج تعتمد غالبًا على مجال استقبال كبير، أو أساليب LSTM أو Transformer لالتقاط الاعتماديات طويلة المدى داخل الفيديوهات، مما يؤدي إلى متطلبات كبيرة من الموارد الحسابية. ولحل هذه التحديات، تم اقتراح نموذج مبني على الرسوم البيانية (Graph-based model). ولكن النماذج الرسومية السابقة كانت أقل دقة. لذلك، تقدم هذه الدراسة نهجًا مبنيًا على البنية الرسومية يُسمى Semantic2Graph، لتمثيل الاعتماديات طويلة المدى في الفيديوهات، مما يقلل من التكاليف الحسابية ويرفع من الدقة. نحن نقوم ببناء هيكل رسومي للفيديو على مستوى الإطارات (frame-level). ونستخدم الحواف الزمنية (Temporal edges) لتمثيل العلاقات الزمنية وترتيب الحركات داخل الفيديو. بالإضافة إلى ذلك، قمنا بتصميم حواف معنوية إيجابية وسلبية، مع أوزان محددة لكل حافة، لالتقاط العلاقات المعنوية قصيرة وطويلة المدى في الحركات داخل الفيديو. وتتضمن صفات العقد مجموعة غنية من الميزات متعددة الوسائط المستخرجة من محتوى الفيديو، والهياكل الرسومية، ونصوص التسميات، بما في ذلك إشارات بصرية وبنائية ومعنوية. ولدمج هذه المعلومات متعددة الوسائط بشكل فعّال، نستخدم نموذج شبكة عصبونية رسومية (Graph Neural Network - GNN) لدمج الميزات متعددة الوسائط لتصنيف علامات الحركات على مستوى العقدة. أظهرت النتائج التجريبية أن نموذج Semantic2Graph يتفوق على أحدث الطرق في الأداء، خاصة على مجموعات البيانات المرجعية مثل GTEA و50Salads. كما أثبتت تجارب الاستبعاد المتعددة فعالية الميزات المعنوية في تحسين أداء النموذج. وبشكل ملحوظ، يسمح إدراج الحواف المعنوية في Semantic2Graph بالتقاط الاعتماديات طويلة المدى بكفاءة من حيث التكلفة، مما يؤكد فائدته في التغلب على التحديات الناتجة عن قيود الموارد الحسابية في نماذج الرؤية القائمة على الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp