Multiskalare patchbasierte Merkmalsgraphen für die Bildklassifikation
In den letzten Jahren haben Deep-Learning-Architekturen herausragende Ergebnisse bei der Bildklassifikation erzielt. Die Anwendung komplexer neuronalen Netzwerke auf kleine Datensätze bleibt jedoch weiterhin herausfordernd. In diesem Kontext stellt Transferlernen einen vielversprechenden Ansatz dar, um dieser Situation zu begegnen. Allgemein verwenden die verfügbaren vortrainierten Architekturen einen standardisierten, festen Eingabebereich, was typischerweise eine Umformung und Ausschnittbildung der Eingabebilder im Vorverarbeitungsschritt erfordert und somit Informationsverlust verursacht. Zudem weisen Bilder in realen Szenarien visuelle Merkmale in unterschiedlichen Skalen auf, während die meisten gängigen Ansätze diese Tatsache nicht berücksichtigen. In diesem Artikel stellen wir einen Ansatz vor, der Transferlernen für kleine Datensätze nutzt und visuelle Merkmale aus verschiedenen Skalen aus vortrainierten Modellen auswertet. Unser Ansatz basiert auf Graph-Convolutional Networks (GCN), die Graphen als Eingabe verwenden, die Bilder in unterschiedlichen Skalen repräsentieren, wobei die Knoten durch Merkmale charakterisiert sind, die von vortrainierten Modellen aus regulären Bildpatches verschiedener Skalen extrahiert wurden. Da GCN Graphen mit unterschiedlicher Knotenzahl verarbeiten können, kann unser Ansatz Bilder unterschiedlicher Größe natürlicherweise verarbeiten, ohne relevante Informationen zu verlieren. Wir haben unseren Ansatz an zwei Datensätzen evaluiert: einer Sammlung geologischer Bilder und einem öffentlich verfügbaren Datensatz, beide zeichnen sich durch Eigenschaften aus, die traditionelle Ansätze herausfordern. Zur Bewertung haben wir drei verschiedene vortrainierte Modelle als Merkmalsextraktoren eingesetzt: zwei effiziente vortrainierte CNN-Modelle (DenseNet und ResNeXt) sowie ein Vision Transformer (CLIP). Wir verglichen unseren Ansatz mit zwei herkömmlichen Ansätzen zur Bildklassifikation. Die Experimente zeigen, dass unser Ansatz im Vergleich zu den konventionellen Ansätzen bei dieser Aufgabe bessere Ergebnisse erzielt.