Erkennung von Instrument-Gewebe-Interaktionen in endoskopischen Videos durch Aktionstripel

Die Erkennung chirurgischer Aktivitäten ist ein wesentlicher Bestandteil zur Entwicklung kontextsensitiver Entscheidungsunterstützung für den Operationssaal. In dieser Arbeit befassen wir uns mit der Erkennung feingranularer Aktivitäten, die als Aktionstriple modelliert sind und die Werkzeugaktivität darstellen. Zu diesem Zweck stellen wir einen neuen laparoskopischen Datensatz, CholecT40, vor, der 40 Videos aus dem öffentlichen Datensatz Cholec80 umfasst, bei denen alle Frames mit 128 Tripletklassen annotiert wurden. Darüber hinaus präsentieren wir einen Ansatz zur direkten Erkennung dieser Triplets aus den Videodaten. Dieser Ansatz basiert auf einem Modul namens Class Activation Guide (CAG), das die Instrumentaktivierungskarten verwendet, um die Erkennung von Verben und Zielen zu leiten. Um die Erkennung mehrerer Triplets im selben Frame zu modellieren, schlagen wir außerdem einen trainierbaren 3D-Interaktionsraum vor, der die Beziehungen zwischen den Triplet-Komponenten erfasst. Schließlich demonstrieren wir die Bedeutung dieser Beiträge durch verschiedene Abstraktionsstudien und Vergleiche mit Baseline-Methoden auf CholecT40.