Dichte Transformer-Netzwerke für die Segmentierung von Gehirn-Elektronenmikroskopie-Bildern

Der zentrale Ansatz aktueller tiefen Lernmethoden für dichte Vorhersagen besteht darin, ein Modell auf einem regelmäßigen Patch, der um jeden Pixel zentriert ist, anzuwenden, um pixelweise Vorhersagen zu erzeugen. Diese Ansätze sind jedoch eingeschränkt, da die Form und Größe der Patches durch die Netzwerkarchitektur festgelegt sind und nicht aus den Daten gelernt werden. In dieser Arbeit stellen wir dichte Transformer-Netzwerke vor, die die Formen und Größen der Patches aus den Daten lernen können. Die dichten Transformer-Netzwerke nutzen eine Encoder-Decoder-Architektur, wobei jeweils ein Paar dichter Transformer-Module in die Encoder- und Decoder-Pfade integriert wird. Der Innovationsgehalt dieser Arbeit liegt darin, technische Lösungen bereitzustellen, um die Formen und Größen der Patches aus den Daten zu lernen und gleichzeitig die räumliche Korrespondenz effizient wiederherzustellen, die für dichte Vorhersagen erforderlich ist. Die vorgeschlagenen dichten Transformer-Module sind differenzierbar, sodass das gesamte Netzwerk trainierbar ist. Wir evaluieren die vorgeschlagenen Netzwerke an Aufgaben der biologischen Bildsegmentierung und zeigen, dass sie gegenüber Baseline-Methoden eine überlegene Leistung erzielen.