NanoNet: Echtzeit-Segmentierung von Polypen in Video-Kapsel-Endoskopie und Kolonoskopie

Tiefes Lernen in der gastrointestinale Endoskopie kann dazu beitragen, die klinische Leistung zu verbessern und eine genauere Beurteilung von Läsionen zu ermöglichen. Hierfür können semantische Segmentierungsverfahren, die eine automatisierte Echtzeit-Begrenzung von Interessensregionen durchführen, wie z.B. die Grenzidentifikation von Krebs- oder präkanzerösen Läsionen, sowohl für die Diagnose als auch für Interventionen nützlich sein. Allerdings ist eine genaue und zeitnahe Segmentierung von endoskopischen Bildern aufgrund ihrer hohen Abhängigkeit vom Operator und der Hochauflösung der Bilder äußerst herausfordernd. Um automatisierte Methoden in klinischen Szenarien einzusetzen, ist es entscheidend, leichtgewichtige Modelle mit geringer Latenz zu entwickeln, sodass sie in Hardwaregeräten von niedriger Leistung integriert werden können. In dieser Arbeit schlagen wir NanoNet vor, eine neuartige Architektur zur Segmentierung von Videokapselendoskopie- und Kolonoskopiebildern. Unser vorgeschlagener Ansatz ermöglicht eine Echtzeitleistung und erreicht höhere Segmentierungsgenauigkeit im Vergleich zu komplexeren Verfahren. Wir verwenden Datensätze aus Videokapselendoskopien und standardisierten Kolonoskopien mit Polypen sowie einen Datensatz, der endoskopische Biopsien und chirurgische Instrumente enthält, um die Effektivität unseres Ansatzes zu evaluieren. Unsere Experimente zeigen die verbesserte Leistung unserer Architektur im Hinblick auf einen Kompromiss zwischen Modellkomplexität, Geschwindigkeit, Modellparametern und metrischen Leistungen. Darüber hinaus ist die resultierende Modellgröße relativ klein; das Modell verfügt über nur etwa 36.000 Parameter im Vergleich zu traditionellen tiefen Lernalgorithmen mit Millionen von Parametern.