HyperAIHyperAI
vor 11 Tagen

Patch-Tiefen-Fusion: Differenzierende Bildsegmentierung mittels feinabgestimmter Patch-Strategie und Tiefenintegritäts-Prior

Liu, Xianjie, Fu, Keren, Zhao, Qijun
Patch-Tiefen-Fusion: Differenzierende Bildsegmentierung mittels feinabgestimmter Patch-Strategie und Tiefenintegritäts-Prior
Abstract

Dichotome Bildsegmentierung (DIS) ist eine hochpräzise Objektsegmentierungsaufgabe für hochauflösende natürliche Bilder. Die derzeit dominierenden Ansätze konzentrieren sich auf die Optimierung lokaler Details, vernachlässigen jedoch die grundlegende Herausforderung der Modellierung der Integrität von Objekten. Wir haben festgestellt, dass die in den von dem Depth Anything Model v2 generierten Pseudotiefenkarten implizit enthaltenen Tiefen-Integritäts-Prioritäten gemeinsam mit den lokalen Detailmerkmalen von Bildpatches die oben genannten Dilemmata effektiv adressieren können. Auf Basis dieser Erkenntnisse haben wir ein neuartiges Patch-Depth-Fusion-Netzwerk (PDFNet) für die hochpräzise dichotome Bildsegmentierung entwickelt. Der Kern von PDFNet besteht aus drei Aspekten. Erstens wird die Objektwahrnehmung durch die Fusion multimodaler Eingaben verbessert. Durch die Nutzung einer patch-basierten Feinabstimmungsstrategie, kombiniert mit Patch-Auswahl und -Verstärkung, wird die Empfindlichkeit gegenüber Details erhöht. Zweitens nutzen wir die in den Tiefenkarten verteilten Integritäts-Prioritäten und schlagen eine Integritäts-Prioritäten-Verlustfunktion vor, um die Homogenität der Segmentierungsergebnisse in den Tiefenkarten zu stärken. Drittens nutzen wir die Merkmale des gemeinsamen Encoders und verbessern durch einen einfachen Tiefen-Verfeinerungs-Decoder die Fähigkeit des gemeinsamen Encoders, feine tiefenbezogene Informationen in den Bildern zu erfassen. Experimente auf dem DIS-5K-Datensatz zeigen, dass PDFNet state-of-the-art nicht-diffusionsbasierte Methoden erheblich übertrifft. Durch die Einbeziehung der Tiefen-Integritäts-Priorität erreicht PDFNet die Leistungsfähigkeit oder sogar übertrifft die neuesten diffusionsbasierten Methoden, wobei weniger als 11 % der Parameter dieser diffusionsbasierten Ansätze verwendet werden. Der Quellcode ist unter https://github.com/Tennine2077/PDFNet verfügbar.

Patch-Tiefen-Fusion: Differenzierende Bildsegmentierung mittels feinabgestimmter Patch-Strategie und Tiefenintegritäts-Prior | Neueste Forschungsarbeiten | HyperAI