Tiefes Reinforcement Learning für die Segmentierung und Klassifizierung chirurgischer Gesten

Die Erkennung chirurgischer Gesten ist entscheidend für die Bewertung chirurgischer Fähigkeiten und effizientes chirurgisches Training. Frühere Arbeiten in diesem Bereich basieren entweder auf variierten grafischen Modellen wie HMMs (Hidden Markov Models) und CRFs (Conditional Random Fields), oder auf tiefen Lernmodellen wie Rekurrenten Neuronalen Netzen (Recurrent Neural Networks) und zeitlichen Faltungsnetzen (Temporal Convolutional Networks). Die meisten aktuellen Ansätze leiden jedoch oft unter Übersegmentierung, was zu niedrigen Segmentebene-Edit-Scores führt. Im Gegensatz dazu präsentieren wir eine wesentlich andere Methodik, indem wir die Aufgabe als sequentielles Entscheidungsprozessmodell darstellen. Ein intelligenter Agent wird mit hierarchischen Merkmalen aus einem tiefen Modell mittels Reinforcement Learning trainiert. Die zeitliche Konsistenz wird in unser Aktionsschema und Belohnungsmechanismus integriert, um Fehler der Übersegmentierung zu reduzieren. Experimente mit dem JIGSAWS-Datensatz zeigen, dass das vorgeschlagene Verfahren im Vergleich zu den bislang besten Methoden bessere Edit-Scores erzielt und gleichwertige Ergebnisse in Bezug auf die rahmengenaue Genauigkeit liefert. Unser Code wird später veröffentlicht werden.