SwiDeN: Faltungsschicht-Neuronale Netze für darstellungsinvariante Objekterkennung

Der aktuelle Stand der Technik bei Objekterkennungsarchitekturen erzielt beeindruckende Leistungen, ist jedoch in der Regel auf einen einzelnen Darstellungsstil (z.B. nur Fotos, nur Skizzen) spezialisiert. In dieser Arbeit stellen wir SwiDeN vor: unsere Architektur eines Faltungsneuronalen Netzes (CNN), das Objekte unabhängig von ihrer visuellen Darstellung (Linienzeichnung, realistische schattierte Zeichnung, Foto usw.) erkennt. In SwiDeN nutzen wir ein neuartiges „tiefes“ schaltendes Mechanismus basierend auf dem Darstellungsstil, der die stilabhängigen und stilunabhängigen Aspekte des Problems angemessen behandelt. Wir vergleichen SwiDeN mit alternativen Architekturen und früheren Arbeiten anhand eines 50-Kategorien Photo-Art-Datensatzes, der Objekte in verschiedenen Stilen enthält. Die experimentellen Ergebnisse zeigen, dass SwiDeN andere Ansätze bei der stilinvarianten Objekterkennung übertrifft.