Bilineare CNNs für feine visuelle Erkennung

Wir präsentieren eine einfache und effektive Architektur für die feingranulare visuelle Erkennung, die Bilineare Faltungsneuronale Netze (B-CNNs) genannt wird. Diese Netze stellen ein Bild als gepooltes äußeres Produkt von Merkmalen dar, die aus zwei Faltungsneuronalen Netzen abgeleitet werden, und erfassen lokalisierte Merkmalsinteraktionen auf übersetzungsinvariante Weise. B-CNNs gehören zur Klasse der reihenfolgenlosen Texturrepräsentationen, unterscheiden sich jedoch von früherer Arbeit dadurch, dass sie in einem end-to-end-Prozess trainiert werden können. Unser genauestes Modell erreicht eine pro-Bild-Akkuratesse von 84,1 %, 79,4 %, 86,9 % und 91,3 % auf den Datensätzen Caltech-UCSD Vögel [67], NABirds [64], FGVC Flugzeuge [42] und Stanford Autos [33] respektive und läuft mit einer Geschwindigkeit von 30 Bildern pro Sekunde auf einer NVIDIA Titan X GPU. Anschließend führen wir eine systematische Analyse dieser Netze durch und zeigen, dass (1) die bilinearen Merkmale stark redundant sind und um einen Faktor zehn reduziert werden können, ohne dass dies zu einem signifikanten Verlust an Genauigkeit führt, (2) sie auch für andere Bildklassifizierungsaufgaben wie Texturerkennung und Szenerkennung effektiv sind und (3) sie von Grund auf auf dem ImageNet-Datensatz trainiert werden können und über das Basismodell hinaus konsistente Verbesserungen bieten. Schließlich präsentieren wir Visualisierungen dieser Modelle auf verschiedenen Datensätzen unter Verwendung der höchsten Aktivierungen neuronaler Einheiten und gradientenbasierter Invertierungstechniken. Der Quellcode des vollständigen Systems ist unter http://vis-www.cs.umass.edu/bcnn verfügbar.