HyperAIHyperAI
منذ 2 أشهر

اللقاء: آليات الانتباه لتمييز ثلاثيات الأفعال الجراحية في الفيديوهات المنظارية

Nwoye, Chinedu Innocent ; Yu, Tong ; Gonzalez, Cristians ; Seeliger, Barbara ; Mascagni, Pietro ; Mutter, Didier ; Marescaux, Jacques ; Padoy, Nicolas
اللقاء: آليات الانتباه لتمييز ثلاثيات الأفعال الجراحية في الفيديوهات المنظارية
الملخص

من بين جميع الإطارات الموجودة لتحليل تدفق الجراحة في الفيديوهات المنظارية، يبرز التعرف على ثلاثيات الأفعال كإطار وحيد يهدف إلى تقديم معلومات دقيقة ومتكاملة عن أنشطة الجراحة. هذه المعلومات، المقدمة على شكل مجموعات <أداة، فعل، هدف>، تكون صعبة للغاية للتعرف عليها بدقة. يمكن أن يكون من الصعب التعرف على مكونات الثلاثية بشكل فردي؛ وفي هذه المهمة، يتطلب الأمر ليس فقط إجراء التعرف بشكل متزامن على جميع المكونات الثلاثية، بل أيضًا إقامة الارتباط الصحيح بين البيانات. لتحقيق هذا الهدف، نقدم نموذجنا الجديد، وهو النموذج Rendezvous (RDV)، الذي يقوم بالتعرف على الثلاثيات مباشرة من الفيديوهات الجراحية باستخدام انتباه على مستويين مختلفين. أولاً، نقدم شكلاً جديداً من الانتباه المكاني لالتقاط مكونات ثلاثية الأفعال الفردية في المشهد؛ ويُطلق عليه آليّة الانتباه المهدهدة بتفعيل الفئات (Class Activation Guided Attention Mechanism - CAGAM). تقنية هذه الآلية تركز على التعرف على الأفعال والأهداف باستخدام التفعيلات الناجمة عن الأدوات. لحل مشكلة الارتباط، يضيف نموذجنا RDV شكلاً جديداً من الانتباه الدلالي مستوحى من شبكات Transformer؛ ويُطلق عليه انتباه متعدد الرؤوس المختلط (Multi-Head of Mixed Attention - MHMA). هذه التقنية تستعمل عدة انتباهاً عرضياً وذاتياً لتقدير العلاقات بين الأدوات والأفعال والأهداف بكفاءة. كما نقدم CholecT50 - وهو مجموعة بيانات تتضمن 50 فيديو منظاريًا تم تصنيف كل إطار منها بعلامات تنتمي إلى 100 فئة ثلاثية. يحسن نموذجنا المقترح RDV المتوسط ​​الدقيق للتنبؤ بالثلاثيات بنسبة تزيد عن 9% مقارنة بأحدث الأساليب المستخدمة في هذا المجموعة البيانات.

اللقاء: آليات الانتباه لتمييز ثلاثيات الأفعال الجراحية في الفيديوهات المنظارية | أحدث الأوراق البحثية | HyperAI