إندو نت: معمارية عميقة للمهام التعرف على الفيديوهات البطنية

التعرف على تدفق العمليات الجراحية له العديد من التطبيقات الطبية المحتملة، مثل فهرسة قواعد بيانات الفيديوهات الجراحية بشكل آلي وتحسين جدولة غرف العمليات في الوقت الحقيقي، وغيرها. نتيجة لذلك، تم دراسة التعرف على المراحل في سياق أنواع مختلفة من الجراحات، مثل جراحة المياه البيضاء وجراحة الأعصاب وجراحة المنظار الباطني. في الأدبيات العلمية، يتم استخدام نوعين رئيسيين من الخصائص لتنفيذ هذه المهمة: الخصائص البصرية وإشارات استخدام الأدوات. ومع ذلك، فإن معظم الخصائص البصرية المستخدمة هي مصممة يدوياً. بالإضافة إلى ذلك، يتم جمع إشارات استخدام الأدوات عادةً عبر عملية تسمية يدوية أو باستخدام معدات إضافية. في هذا البحث، نقترح طريقة جديدة للتعرف على المراحل تستخدم شبكة عصبية متلافهة (CNN) لتعلم الخصائص تلقائياً من مقاطع الفيديو الخاصة بجراحة المرارة وتستند فقط على المعلومات البصرية. وقد أظهرت الدراسات السابقة أن إشارات الأدوات يمكن أن توفر معلومات قيمة في تنفيذ مهمة التعرف على المراحل. لذلك، نقدم هندسة شبكة عصبية متلافهة جديدة تُسمى EndoNet وهي مصممة لأداء مهمتي التعرف على المراحل وكشف وجود الأدوات بطريقة متعددة المهام. حسب علمنا، هذا هو أول عمل يقترح استخدام شبكة عصبية متلافهة لأداء مهام التعرف المتعددة على مقاطع الفيديو الخاصة بجراحة المنظار الباطني. أظهرت المقارنات التجريبية الواسعة مع الأساليب الأخرى أن EndoNet تحقق نتائج رائدة في مجالها لكلا المهمتين.