Webly supervisierte Bildklassifikation mit Metadaten: Automatische Korrektur von verrauschten Labels mittels visueller-Semantischer Graphen

Webly supervised learning gewinnt aktuell zunehmend an Attraktivität, da es effizient die Datenexpansion ermöglicht, ohne teure menschliche Beschriftungen zu erfordern. Die Verwendung von Suchanfragen oder Hashtags als Web-Labels für Bilder im Trainingsprozess führt jedoch zu erheblichem Rauschen, das die Leistung von tiefen neuronalen Netzen (DNNs) beeinträchtigt. Insbesondere aufgrund der semantischen Mehrdeutigkeit von Suchbegriffen enthalten die von einer einzelnen Anfrage zurückgegebenen Bilder oft eine große Anzahl von Bildern, die anderen Konzepten zuzuordnen sind. So liefert eine Suche nach „tiger cat“ auf Flickr vorwiegend Tigerbilder statt Katzenbilder. Diese realistischen, rauschbehafteten Beispiele weisen in der visuellen Raumstruktur häufig deutliche visuelle semantische Cluster auf, die DNNs daran hindern, präzise semantische Labels zu lernen. Zur Korrektur von realwelttypischen, verrauschten Labels scheint eine aufwändige menschliche Annotation unvermeidlich. Glücklicherweise stellen wir fest, dass Metadaten zusätzliche Kenntnisse bereitstellen können, um saubere Web-Labels auf arbeitsfreie Weise zu identifizieren. Dadurch wird es möglich, automatisch korrekte semantische Anleitungen innerhalb großer Mengen rauschbehafteter Web-Daten bereitzustellen. In diesem Artikel präsentieren wir einen automatischen Label-Korrektor namens VSGraph-LC, basierend auf einem visuell-semantischen Graphen. VSGraph-LC beginnt mit der Auswahl von Anchors, die auf der semantischen Ähnlichkeit zwischen Metadaten und korrekten Label-Konzepten basiert, und propagiert anschließend korrekte Labels von diesen Anchors aus über einen visuellen Graphen mittels eines Graph Neural Network (GNN). Experimente auf realistischen webly supervised Learning-Datensätzen wie Webvision-1000 und NUS-81-Web belegen die Effektivität und Robustheit von VSGraph-LC. Darüber hinaus zeigt VSGraph-LC seine Überlegenheit insbesondere auf offenen Datensätzen (open-set validation sets).