Command Palette
Search for a command to run...
LoGeR: إعادة البناء الهندسي للسياق الطويل باستخدام ذاكرة هجينة
LoGeR: إعادة البناء الهندسي للسياق الطويل باستخدام ذاكرة هجينة
Junyi Zhang Charles Herrmann Junhwa Hur Chen Sun Ming-Hsuan Yang Forrester Cole Trevor Darrell Deqing Sun
الملخص
تُحقق النماذج الهندسية الأساسية ذات التغذية الأمامية (Feedforward) أداءً قويًا في إعادة البناء ضمن النوافذ الزمنية القصيرة؛ غير أن توسيع نطاقها ليشمل مقاطع فيديو تمتد لعدة دقائق يُعيقه التعقيد التربيعي لآليات الانتباه (Attention) أو محدودية الذاكرة الفعّالة في التصاميم التكرارية. نقترح في هذا العمل نموذج LoGeR (إعادة البناء الهندسي السياقي الطويل)، وهو معمارية جديدة تمكّن من توسيع نطاق إعادة البناء ثلاثي الأبعاد الكثيف ليشمل تسلسلات زمنية طويلة للغاية دون الحاجة إلى تحسين لاحق (Post-optimization). يعالج LoGeR تدفقات الفيديو على شكل كتل (Chunks)، مستفيدًا من مسلمات ثنائية الاتجاه قوية للاستدلال عالي الدقة داخل كل كتلة. وللتغلب على التحدي الحاسم المتمثل في ضمان التماسك عبر حدود الكتل، نقترح وحدة ذاكرة هجينة قائمة على التعلم. تجمع هذه النظام المكون من جزأين بين ذاكرة تدريبية في وقت الاختبار (Test-Time Training - TTT) بارامترية لترسيخ إطار الإحداثيات العالمي ومنع انحراف المقياس (Scale Drift)، وبين آلية انتباه بنافذة منزلقة (Sliding Window Attention - SWA) لا بارامترية للحفاظ على سياق غير مضغوط لضمان محاذاة دقيقة بين الكتل المتجاورة. ومن الجدير بالذكر أن هذه المعمارية الذاكرةية تتيح تدريب LoGeR على تسلسلات مكونة من 128 إطارًا فقط، مع تعميم أدائه ليشمل آلاف الإطارات أثناء الاستدلال. أظهرت التقييمات عبر معايير قياسية ومجموعة بيانات VBR المعاد توظيفها حديثًا والتي تضم تسلسلات تصل إلى 19 ألف إطار، تفوق LoGeR بشكل كبير على أحدث الطرق ذات التغذية الأمامية السابقة؛ حيث قلّل خطأ المسار المطلق (ATE) في مجموعة بيانات KITTI بأكثر من 74%، كما حقق إعادة بناء قوية ومتسقة عالميًا عبر آفاق زمنية لم يسبق لها مثيل.