Command Palette
Search for a command to run...
Domänenadaptives Transfer Learning auf visuell Aufmerksamkeitsorientierter Datenaugmentation für feinabgestufte visuelle Kategorisierung
Domänenadaptives Transfer Learning auf visuell Aufmerksamkeitsorientierter Datenaugmentation für feinabgestufte visuelle Kategorisierung
Ashiq Imran Vassilis Athitsos
Zusammenfassung
Feinabgestufte visuelle Kategorisierung (Fine-Grained Visual Categorization, FGVC) ist ein herausforderndes Thema im Bereich des maschinellen Sehens. Es zeichnet sich durch große intra-klassische Unterschiede und subtile inter-klassische Unterschiede aus. In diesem Artikel bearbeiten wir dieses Problem auf schwach überwachte Weise, wobei neuronale Netzwerke mit zusätzlichen Daten durch eine Datenverstärkungstechnik unter Verwendung eines visuellen Aufmerksamkeitsmechanismus versorgt werden. Wir realisieren einen domänenspezifischen Wissenstransfer durch Feinabstimmung (fine-tuning) unseres Basisnetzwerks. Unsere Experimente werden auf sechs anspruchsvollen und häufig verwendeten FGVC-Datensätzen durchgeführt, wobei wir durch die Verwendung von auf Aufmerksamkeit basierender Datenverstärkungstechniken sowie Merkmale aus einem tiefen Lernmodell (InceptionV3), das auf großskaligen Datensätzen vortrainiert wurde, wettbewerbsfähige Verbesserungen hinsichtlich der Genauigkeit erzielen. Unsere Methode übertrifft mehrere Konkurrenzverfahren auf mehreren FGVC-Datensätzen und erzielt zudem wettbewerbsfähige Ergebnisse auf weiteren Datensätzen. Experimentelle Studien zeigen, dass der Transferlernen aus großskaligen Datensätzen effektiv in Kombination mit datenverstärkenden Techniken auf Basis visueller Aufmerksamkeit genutzt werden kann, um state-of-the-art-Ergebnisse auf mehreren FGVC-Datensätzen zu erzielen. Wir präsentieren eine umfassende Analyse unserer Experimente. Unser Ansatz erreicht state-of-the-art-Ergebnisse auf mehreren feinabgestuften Klassifikationsdatensätzen, darunter die anspruchsvollen Datensätze CUB200-2011 (Vögel), Flowers-102 und FGVC-Aircrafts.