HyperAIHyperAI
vor 2 Monaten

Rendezvous in Time: Ein aufmerksamkeitsbasierter temporaler Fusionsansatz für die chirurgische Triplettenerkennung

Sharma, Saurav ; Nwoye, Chinedu Innocent ; Mutter, Didier ; Padoy, Nicolas
Rendezvous in Time: Ein aufmerksamkeitsbasierter temporaler Fusionsansatz für die chirurgische Triplettenerkennung
Abstract

Einer der jüngsten Fortschritte im Bereich der chirurgischen KI ist die Erkennung von chirurgischen Aktivitäten als Triplette aus (Instrument, Verb, Ziel). Obwohl diese Methode detaillierte Informationen für computergestützte Interventionen bereitstellt, basieren aktuelle Ansätze zur Tripletten-Erkennung ausschließlich auf Merkmalen einzelner Bilder. Die Ausnutzung zeitlicher Hinweise aus früheren Bildern würde die Erkennung von chirurgischen Aktionstriplett aus Videos verbessern. In dieser Arbeit schlagen wir "Rendezvous in Time" (RiT) vor – ein tiefes Lernmodell, das das Stand-of-the-Art-Modell Rendezvous um eine zeitliche Modellierung erweitert. Indem unser RiT sich stärker auf die Verben konzentriert, untersucht es die Verbindung zwischen aktuellen und vergangenen Bildern, um zeitlich aufmerksamkeitsbasierte Merkmale zu lernen, die eine verbesserte Tripletten-Erkennung ermöglichen. Wir validieren unseren Vorschlag am anspruchsvollen chirurgischen Tripletten-Datensatz CholecT45 und zeigen eine verbesserte Erkennung des Verbs und der Triplette sowie anderer Interaktionen, die das Verb betreffen, wie z.B. (Instrument, Verb). Qualitative Ergebnisse belegen, dass RiT glattere Vorhersagen für die meisten Tripletten-Instanzen als der Stand-of-the-Art liefert. Wir präsentieren einen neuen aufmerksamkeitsbasierten Ansatz, der die zeitliche Fusion von Videobildern nutzt, um den Verlauf chirurgischer Aktionen zu modellieren und ihre Vorteile für die chirurgische Tripletten-Erkennung zu nutzen.