HyperAIHyperAI

Command Palette

Search for a command to run...

Multiskalare patchbasierte Merkmalsgraphen für die Bildklassifikation

Joel Dennis; Carbonera Luan; Balreira Matheus; Garcia Todescato

Zusammenfassung

In den letzten Jahren haben Deep-Learning-Architekturen herausragende Ergebnisse bei der Bildklassifikation erzielt. Die Anwendung komplexer neuronalen Netzwerke auf kleine Datensätze bleibt jedoch weiterhin herausfordernd. In diesem Kontext stellt Transferlernen einen vielversprechenden Ansatz dar, um dieser Situation zu begegnen. Allgemein verwenden die verfügbaren vortrainierten Architekturen einen standardisierten, festen Eingabebereich, was typischerweise eine Umformung und Ausschnittbildung der Eingabebilder im Vorverarbeitungsschritt erfordert und somit Informationsverlust verursacht. Zudem weisen Bilder in realen Szenarien visuelle Merkmale in unterschiedlichen Skalen auf, während die meisten gängigen Ansätze diese Tatsache nicht berücksichtigen. In diesem Artikel stellen wir einen Ansatz vor, der Transferlernen für kleine Datensätze nutzt und visuelle Merkmale aus verschiedenen Skalen aus vortrainierten Modellen auswertet. Unser Ansatz basiert auf Graph-Convolutional Networks (GCN), die Graphen als Eingabe verwenden, die Bilder in unterschiedlichen Skalen repräsentieren, wobei die Knoten durch Merkmale charakterisiert sind, die von vortrainierten Modellen aus regulären Bildpatches verschiedener Skalen extrahiert wurden. Da GCN Graphen mit unterschiedlicher Knotenzahl verarbeiten können, kann unser Ansatz Bilder unterschiedlicher Größe natürlicherweise verarbeiten, ohne relevante Informationen zu verlieren. Wir haben unseren Ansatz an zwei Datensätzen evaluiert: einer Sammlung geologischer Bilder und einem öffentlich verfügbaren Datensatz, beide zeichnen sich durch Eigenschaften aus, die traditionelle Ansätze herausfordern. Zur Bewertung haben wir drei verschiedene vortrainierte Modelle als Merkmalsextraktoren eingesetzt: zwei effiziente vortrainierte CNN-Modelle (DenseNet und ResNeXt) sowie ein Vision Transformer (CLIP). Wir verglichen unseren Ansatz mit zwei herkömmlichen Ansätzen zur Bildklassifikation. Die Experimente zeigen, dass unser Ansatz im Vergleich zu den konventionellen Ansätzen bei dieser Aufgabe bessere Ergebnisse erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp