Chirurgisches Tripletten-Erkennung durch Diffusionsmodell

Die Erkennung chirurgischer Triplette ist ein wesentlicher Baustein zur Ermöglichung von next-generation kontextsensiblen Operationssälen. Das Ziel besteht darin, die Kombinationen von Instrumenten, Verben und Zielen in chirurgischen Videobildern zu identifizieren. In dieser Arbeit schlagen wir DiffTriplet vor, einen neuen generativen Ansatz für die Erkennung chirurgischer Triplette, der das Diffusionsmodell verwendet. Dieses Modell prognostiziert chirurgische Triplette durch iteratives Entrauschen. Um die Herausforderung der Triplettenassoziation zu bewältigen, wurden in unserem Diffusionsrahmen zwei einzigartige Designansätze vorgeschlagen: assoziatives Lernen und assoziative Leitung (association guidance). Während des Trainings optimieren wir das Modell im gemeinsamen Raum der Triplette und ihrer einzelnen Komponenten, um deren Abhängigkeiten zu erfassen. Bei der Inferenz integrieren wir assoziative Restriktionen in jeden Schritt des iterativen Entrauschungsprozesses, wodurch die Prognose der Triplette mit Hilfe der Informationen der einzelnen Komponenten verfeinert wird. Experimente mit den Datensätzen CholecT45 und CholecT50 zeigen die Überlegenheit der vorgeschlagenen Methode bei der Erreichung einer neuen state-of-the-art-Leistung für die Erkennung chirurgischer Triplette. Unser Code wird veröffentlicht werden.