Semantic2Graph: دمج الميزات متعددة الوسائط القائمة على الرسم البياني لتقسيم الإجراءات في الفيديوهات

تم تطبيق تقسيم الحركة في الفيديو على نطاق واسع في العديد من المجالات. وقد اعتمدت الدراسات السابقة بشكل رئيسي على نماذج الرؤية القائمة على الفيديو لتحقيق هذا الهدف. ومع ذلك، فإن هذه النماذج تعتمد غالبًا على مجال استقبال كبير، أو أساليب LSTM أو Transformer لالتقاط الاعتماديات طويلة المدى داخل الفيديوهات، مما يؤدي إلى متطلبات كبيرة من الموارد الحسابية. ولحل هذه التحديات، تم اقتراح نموذج مبني على الرسوم البيانية (Graph-based model). ولكن النماذج الرسومية السابقة كانت أقل دقة. لذلك، تقدم هذه الدراسة نهجًا مبنيًا على البنية الرسومية يُسمى Semantic2Graph، لتمثيل الاعتماديات طويلة المدى في الفيديوهات، مما يقلل من التكاليف الحسابية ويرفع من الدقة. نحن نقوم ببناء هيكل رسومي للفيديو على مستوى الإطارات (frame-level). ونستخدم الحواف الزمنية (Temporal edges) لتمثيل العلاقات الزمنية وترتيب الحركات داخل الفيديو. بالإضافة إلى ذلك، قمنا بتصميم حواف معنوية إيجابية وسلبية، مع أوزان محددة لكل حافة، لالتقاط العلاقات المعنوية قصيرة وطويلة المدى في الحركات داخل الفيديو. وتتضمن صفات العقد مجموعة غنية من الميزات متعددة الوسائط المستخرجة من محتوى الفيديو، والهياكل الرسومية، ونصوص التسميات، بما في ذلك إشارات بصرية وبنائية ومعنوية. ولدمج هذه المعلومات متعددة الوسائط بشكل فعّال، نستخدم نموذج شبكة عصبونية رسومية (Graph Neural Network - GNN) لدمج الميزات متعددة الوسائط لتصنيف علامات الحركات على مستوى العقدة. أظهرت النتائج التجريبية أن نموذج Semantic2Graph يتفوق على أحدث الطرق في الأداء، خاصة على مجموعات البيانات المرجعية مثل GTEA و50Salads. كما أثبتت تجارب الاستبعاد المتعددة فعالية الميزات المعنوية في تحسين أداء النموذج. وبشكل ملحوظ، يسمح إدراج الحواف المعنوية في Semantic2Graph بالتقاط الاعتماديات طويلة المدى بكفاءة من حيث التكلفة، مما يؤكد فائدته في التغلب على التحديات الناتجة عن قيود الموارد الحسابية في نماذج الرؤية القائمة على الفيديو.