Schwach überwachte komplementäre Teilemodelle für feingranulare Bildklassifizierung von unten nach oben

Gegeben sei ein Trainingsdatensatz, der aus Bildern und den entsprechenden Kategoriebezeichnungen besteht. Tiefgeschichtete Faltungsneuronale Netze (Deep Convolutional Neural Networks, DCNNs) zeigen eine starke Fähigkeit, diskriminierende Teile für die Bildklassifizierung zu erforschen. Allerdings neigen DCNNs, die nur mit bildbasierten Bezeichnungen trainiert werden, dazu, sich auf die am stärksten diskriminierenden Teile zu konzentrieren und andere Objektteile zu übersehen, die ergänzende Informationen liefern könnten. In dieser Arbeit gehen wir dieses Problem von einer anderen Perspektive an. Wir erstellen Modelle für ergänzende Teile in einem schwach überwachten Verfahren, um Informationen wiederzugewinnen, die durch dominante Objektteile, die von Faltungsneuronalen Netzen erkannt wurden, unterdrückt wurden. Gegeben sind nur bildbasierte Bezeichnungen; zunächst extrahieren wir grobe Objektinstanzen durch schwach überwachte Objekterkennung und Instanzsegmentierung unter Verwendung von Mask R-CNN und CRF-basierter Segmentierung. Anschließend schätzen und suchen wir das beste Teilemodell für jede Objektinstanz unter dem Prinzip der Erhaltung möglichst vielfältiger Informationen. Im letzten Stadium bauen wir ein bidirektionales Long Short-Term Memory (LSTM)-Netzwerk auf, um die teilweisen Informationen dieser ergänzenden Teile in eine umfassende Merkmalsdarstellung für die Bildklassifizierung zu integrieren und zu kodieren. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren nicht nur erhebliche Verbesserungen gegenüber unseren Basismodellen erreicht, sondern auch den Stand der Technik bei den Algorithmen um einen großen Vorsprung (6,7 %, 2,8 % und 5,2 % jeweils) auf den Datensätzen Stanford Dogs 120, Caltech-UCSD Birds 2011-200 und Caltech 256 übertreffen kann.