التقى في الزمن: نهج دمج زمني يستند إلى الانتباه لتمييز الثلاثيات الجراحية

من بين التقدمات الحديثة في مجال الذكاء الاصطناعي الجراحي، هناك تقنية التعرف على الأنشطة الجراحية كثلاثيات من (الأداة، الفعل، الهدف). رغم أنها توفر معلومات دقيقة للاشتراك الحاسوبي في العمليات الجراحية، تعتمد النماذج الحالية للتعرف على الثلاثيات فقط على خصائص الإطار الواحد. استغلال المؤشرات الزمنية من الإطارات السابقة سيحسن التعرف على ثلاثيات الأفعال الجراحية من مقاطع الفيديو. في هذا البحث، نقترح نموذج "التقاء في الزمن" (Rendezvous in Time - RiT)، وهو نموذج تعلم عميق يمتد إلى أحدث النماذج المعروفة بـ "التقاء" (Rendezvous) بإضافة نمذجة زمنية. مع التركيز بشكل أكبر على الأفعال، يستكشف RiT اتصال الإطارات الحالية والماضية لتعلم خصائص قائمة على الانتباه الزمني بهدف تعزيز التعرف على الثلاثيات. قمنا بتحقق مقترحنا باستخدام مجموعة البيانات الجراحية الصعبة CholecT45، مما أظهر تحسينًا في التعرف على الفعل والثلاثية بالإضافة إلى التفاعلات الأخرى التي تتضمن الفعل مثل (الأداة، الفعل). تظهر النتائج النوعية أن RiT ينتج توقعات أكثر سلاسة للغالبية العظمى من حالات الثلاثيات مقارنة بأحدث النماذج. نقدم نهجًا جديدًا قائماً على الانتباه يستفيد من دمج الإطارات الزمني للفيديو لنمذجة تطور الأفعال الجراحية واستغلال فوائدها في التعرف على الثلاثيات الجراحية.