التعرف على تفاعلات الأدوات والأنسجة في مقاطع الفيديو المنظاري عبر ثلاثيات الأفعال

التعرف على النشاط الجراحي هو مكون أساسي لتطوير دعم قرارات يعتمد على السياق في غرفة العمليات. في هذا العمل، نتناول التعرف على الأنشطة الدقيقة، والتي تم نمذجتها كثلاثيات أفعال <أداة، فعل، هدف> تمثل نشاط الأداة. لهذا الغرض، نقدم مجموعة بيانات جديدة للتنظير البطن (CholecT40)، تتكون من 40 مقطع فيديو من مجموعة البيانات العامة Cholec80، حيث تم تسمية جميع الإطارات باستخدام 128 صنفًا من الثلاثيات. بالإضافة إلى ذلك، نقدم طريقة للتعرف على هذه الثلاثيات مباشرة من بيانات الفيديو. تعتمد هذه الطريقة على وحدة تسمى دليل تنشيط الصنف (Class Activation Guide - CAG)، والذي يستخدم خرائط تنشيط الأدوات لتوجيه التعرف على الفعل والهدف. لنمذجة التعرف على عدة ثلاثيات في الإطار نفسه، نقترح أيضًا فضاء تفاعلي قابل للتدريب ثلاثي الأبعاد (3D Interaction Space)، الذي يلتقط العلاقات بين مكونات الثلاثية. وأخيرًا، نثبت أهمية هذه المساهمات عبر عدة دراسات تقليصية ومقارنات مع النماذج الأولية على CholecT40.