Raumlich kovariante Bildregistrierung mit Text-Prompts

Medizinische Bilder zeichnen sich häufig durch strukturierte anatomische Darstellungen und räumlich inhomogene Kontraste aus. Die Nutzung anatomischer Vorwissen in neuronalen Netzwerken kann deren Nutzen in ressourcenbeschränkten klinischen Umgebungen erheblich steigern. Frühere Forschungsarbeiten haben solche Informationen bereits für die Bildsegmentierung genutzt, während Fortschritte bei der deformierbaren Bildregistrierung bescheiden blieben. In unserer Arbeit stellen wir textSCF vor, eine neuartige Methode, die räumlich kovariante Filter mit textuellen anatomischen Hinweisen kombiniert, die durch visuallinguistische Modelle kodiert sind, um diese Lücke zu schließen. Dieser Ansatz optimiert eine implizite Funktion, die Text-Embeddings anatomischer Regionen mit Filtergewichten verknüpft, wodurch die übliche Translationssymmetrie von Faltungsoperationen aufgehoben wird. textSCF steigert nicht nur die Recheneffizienz, sondern kann auch die Registrierungsgenauigkeit beibehalten oder sogar verbessern. Durch die Erfassung des kontextuellen Zusammenhangs zwischen anatomischen Regionen bietet es beeindruckende Transferfähigkeit zwischen Regionen und die Fähigkeit, strukturelle Diskontinuitäten während der Registrierung zu bewahren. Die Leistungsfähigkeit von textSCF wurde anhand inter-subjektiver Registrierungsaufgaben für Gehirn-MRT und abdominelle CT-Bilder gründlich getestet und übertraf bestehende State-of-the-Art-Modelle im MICCAI Learn2Reg 2021-Wettbewerb, wobei es die Spitzenposition in der Rangliste einnahm. Bei abdominellen Registrierungen verbesserte die größere Variante von textSCF den Dice-Score um 11,3 % gegenüber dem zweitbesten Modell, während die kleinere Variante vergleichbare Genauigkeit erzielte, jedoch mit einer Reduktion der Netzwerkparameter um 89,13 % und einer Verringerung der Berechnungsoperationen um 98,34 %.