نحو فهم شامل لمشهد الجراحة

معظم المعايير المستخدمة لدراسة التدخلات الجراحية تركز على تحدي محدد بدلاً من الاستفادة من التكامل الداخلي بين المهام المختلفة. في هذا العمل، نقدم إطارًا تجريبًا جديدًا نحو فهم شامل للمشهد الجراحي. أولاً، نقدم مجموعة بيانات Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA). تتضمن PSI-AVA شروحًا لكل من الاستدلال طويل الأجل (التعرف على المرحلة والخطوة) والاستدلال قصير الأجل (اكتشاف الأدوات والتعرف على الأفعال الذرية الجديدة) في مقاطع الفيديو للجراحة الروبوتية لإزالة البروستاتا بالكامل. ثانياً، نقدم Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) كأساس قوي لفهم المشهد الجراحي. يستفيد TAPIR من شروحات مجموعة البيانات متعددة المستويات، حيث يحسن قدرته على التصنيف بفضل التمثيل الذي تم تعلمه في مهمة اكتشاف الأدوات. تظهر نتائجنا التجريبية في كل من PSI-AVA وفي قواعد بيانات عامة أخرى مدى ملاءمة إطارنا لتحفيز البحث المستقبلي حول فهم شامل للمشهد الجراحي.