HyperAIHyperAI
vor 2 Monaten

FOSNet: Ein von Ende zu Ende trainierbares tiefes neuronales Netzwerk für die Szenerkennung

Hongje Seong; Junhyuk Hyun; Euntai Kim
FOSNet: Ein von Ende zu Ende trainierbares tiefes neuronales Netzwerk für die Szenerkennung
Abstract

Szenerkennung ist ein Bilderkennungsproblem, das darauf abzielt, die Kategorie des Ortes vorherzusagen, an dem das Bild aufgenommen wurde. In dieser Arbeit wird eine neue Szenerkennungsmethode vorgeschlagen, die auf einem konvolutionellen Neuronalen Netz (CNN) basiert. Die vorgeschlagene Methode beruht auf der Fusion von Objekt- und Szeneinformationen im gegebenen Bild, und das CNN-Framework wird als FOS (Fusion of Object and Scene) Net bezeichnet. Darüber hinaus wurde ein neuer Verlustfunktion namens Szinkohärenzverlust (SCL) entwickelt, um das FOSNet zu trainieren und die Leistung der Szenerkennung zu verbessern. Der vorgeschlagene SCL basiert auf den einzigartigen Merkmalen der Szene, dass die "Szenerie" sich ausbreitet und die Szeneklasse über das gesamte Bild hinweg nicht ändert. Das vorgeschlagene FOSNet wurde mit drei der beliebtesten Szenerkennungsdatasets getestet und erzielte in zwei Datasets den aktuellen Stand der Technik: 60,14 % bei Places 2 und 90,37 % bei MIT Indoor 67. Die zweitbeste Leistung von 77,28 % wurde bei SUN 397 erreicht.

FOSNet: Ein von Ende zu Ende trainierbares tiefes neuronales Netzwerk für die Szenerkennung | Neueste Forschungsarbeiten | HyperAI