MuST: Multi-Skalige Transformer für die Erkennung von Chirurgischen Phasen

Die Phasenerkennung in chirurgischen Videos ist entscheidend für die Verbesserung computergestützter chirurgischer Systeme, da sie eine automatisierte Auffassung der sequenziellen Prozedurphasen ermöglicht. Bestehende Methoden basieren häufig auf festgelegten zeitlichen Fenstern zur Videoanalyse, um dynamische chirurgische Phasen zu identifizieren. Daher haben sie Schwierigkeiten, gleichzeitig kurz-, mittel- und langfristige Informationen zu erfassen, die notwendig sind, um komplexe chirurgische Vorgänge vollständig zu verstehen. Um diese Probleme zu lösen, schlagen wir Multi-Scale Transformers for Surgical Phase Recognition (MuST) vor, einen neuen Ansatz auf Basis von Transformatoren, der einen Multi-Term Frame Encoder mit einem Zeitlichen Konsistenzmodul kombiniert, um Informationen über mehrere zeitliche Skalen eines chirurgischen Videos zu erfassen. Unser Multi-Term Frame Encoder berechnet Interdependenzen in einer Hierarchie von zeitlichen Skalen, indem er Sequenzen mit zunehmenden Schritten um den interessierenden Frame herum abtastet. Darüber hinaus verwenden wir einen langfristigen Transformer-Encoder über die Frame-Embeddings, um das langfristige Schließen weiter zu verbessern. MuST erreicht eine höhere Leistung als bisherige Stand-of-the-Art-Methoden bei drei verschiedenen öffentlichen Benchmarks.