LoViT: محول الفيديو الطويل لتمييز مراحل الجراحة

التمييز الجراحي الفوري عبر الإنترنت يلعب دورًا مهمًا في بناء أدوات سياقية يمكنها تقدير الأداء ومراقبة تنفيذ تدفقات العمل الجراحية. ومع ذلك، فإن الأساليب الحالية محدودة لأنها تقوم بتدريب مستخلصات الميزات المكانية باستخدام إشراف على مستوى الإطار، مما قد يؤدي إلى توقعات غير صحيحة بسبب ظهور إطارات مشابهة في مراحل مختلفة، بالإضافة إلى دمج ضعيف للميزات المحلية والعالمية بسبب القيود الحسابية التي يمكن أن تؤثر على تحليل مقاطع الفيديو الطويلة التي تواجه غالبًا في التدخلات الجراحية. في هذا البحث، نقدم طريقة ثنائية المرحلة تُسمى "متغير الفيديو الطويل" (Long Video Transformer - LoViT) لدمج المعلومات الزمنية قصيرة وطويلة الأمد، والتي تجمع بين مستخلص ميزات مكانية غني بالزمن ومحرك جمع زمني متعدد المقاييس يتكون من وحدتين متتاليتين من نوع L-Trans تعتمدان على الذكاء الانتباهي الذاتي، ثم وحدة G-Informer تعتمد على الذكاء الانتباهي الذاتي ProbSparse لمعالجة المعلومات الزمنية العالمية. يقوم الرأس الزمني المتعدد المقاييس بعد ذلك بدمج الميزات المحلية والعالمية وتبويب مراحل العملية الجراحية باستخدام إشراف يدرك انتقال المراحل. أثبتت طريقتنا أنها أفضل من أفضل الأساليب الحالية بشكل ثابت على مجموعتي بيانات Cholec80 وAutoLaparo. بالمقارنة مع Trans-SVNet، حقق LoViT تحسنًا بنسبة 2.4 نقطة مئوية (pp) في دقة مستوى الفيديو على Cholec80 وتحسينًا بنسبة 3.1 نقطة مئوية على AutoLaparo. علاوة على ذلك، حقق تحسنًا بنسبة 5.3 نقطة مئوية في مؤشر جاكارد لمستوى المرحلة على AutoLaparo وتحسينًا بنسبة 1.55 نقطة مئوية على Cholec80. تظهر نتائجنا فعالية طريقتنا في تحقيق أداء رائد في التمييز بين مراحل العملية الجراحية على مجموعة بيانات تتضمن عمليات جراحية مختلفة وخواص توقيت متباينة بينما نقدم آليات للتعامل مع مقاطع الفيديو الطويلة.