Command Palette
Search for a command to run...
MuST: Multi-Skalige Transformer für die Erkennung von Chirurgischen Phasen
MuST: Multi-Skalige Transformer für die Erkennung von Chirurgischen Phasen
Alejandra Pérez Santiago Rodríguez Nicolás Ayobi Nicolás Aparicio Eugénie Dessevres Pablo Arbeláez
Zusammenfassung
Die Phasenerkennung in chirurgischen Videos ist entscheidend für die Verbesserung computergestützter chirurgischer Systeme, da sie eine automatisierte Auffassung der sequenziellen Prozedurphasen ermöglicht. Bestehende Methoden basieren häufig auf festgelegten zeitlichen Fenstern zur Videoanalyse, um dynamische chirurgische Phasen zu identifizieren. Daher haben sie Schwierigkeiten, gleichzeitig kurz-, mittel- und langfristige Informationen zu erfassen, die notwendig sind, um komplexe chirurgische Vorgänge vollständig zu verstehen. Um diese Probleme zu lösen, schlagen wir Multi-Scale Transformers for Surgical Phase Recognition (MuST) vor, einen neuen Ansatz auf Basis von Transformatoren, der einen Multi-Term Frame Encoder mit einem Zeitlichen Konsistenzmodul kombiniert, um Informationen über mehrere zeitliche Skalen eines chirurgischen Videos zu erfassen. Unser Multi-Term Frame Encoder berechnet Interdependenzen in einer Hierarchie von zeitlichen Skalen, indem er Sequenzen mit zunehmenden Schritten um den interessierenden Frame herum abtastet. Darüber hinaus verwenden wir einen langfristigen Transformer-Encoder über die Frame-Embeddings, um das langfristige Schließen weiter zu verbessern. MuST erreicht eine höhere Leistung als bisherige Stand-of-the-Art-Methoden bei drei verschiedenen öffentlichen Benchmarks.