HERMES: الفهم طويل الأمد المتماسك زمنيًا باستخدام الحلقات والدلالات

البحث الحالي غالبًا ما يتعامل مع الفيديوهات الطويلة كفيديوهات قصيرة ممتدة، مما يؤدي إلى عدة قيود: عدم القدرة على التقاط الارتباطات طويلة المدى بشكل كافٍ، المعالجة غير الفعالة للمعلومات الزائدة، والفشل في استخراج المفاهيم الدلالية عالية المستوى. لحل هذه المشكلات، نقترح نهجًا جديدًا يعكس بصفة أفضل الإدراك البشري. يقدم هذا البحث نموذج HERMES: فهم زمني متماسك للأشكال الطويلة من خلال الحلقات والدلالات، وهو نموذج يحاكي تراكم الذاكرة الحلقية لتقاطع سلاسل الأفعال وتعزيزها بالمعرفة الدلالية المنتشرة عبر الفيديو. تتمثل إسهامات عملنا في نقطتين رئيسيتين: أولاً، طورنا ضاغط حلقاتي (ECO) يجمع التمثيلات الأساسية بكفاءة من المستويات الدقيقة إلى شبه الكبيرة، مما يتجاوز تحدي الارتباطات طويلة المدى. ثانياً، اقترحنا جامع دلالي (SeTR) يعزز هذه التمثيلات المتجمعة بمعلومات دلالية عن طريق التركيز على السياق الأوسع، مما يقلل بشكل كبير من بعد الخصائص مع الحفاظ على المعلومات الكبيرة ذات الصلة. هذا يعالج مشكلتي التكرار ونقص استخراج المفاهيم عالية المستوى. تظهر التجارب الواسعة أن HERMES حققت أداءً عالميًا رائدًا في العديد من مقاييس فهم الفيديوهات الطويلة في كل من الإعدادات بدون أمثلة سابقة (zero-shot) والإعدادات المرقابة بالكامل.