FOSNet : Un réseau neuronal profond entraînable de bout en bout pour la reconnaissance de scènes

La reconnaissance de scène est un problème de reconnaissance d'images visant à prédire la catégorie du lieu où l'image a été prise. Dans cet article, une nouvelle méthode de reconnaissance de scène utilisant le réseau neuronal convolutif (CNN) est proposée. La méthode proposée repose sur la fusion des informations d'objet et de scène dans l'image donnée, et le cadre CNN est nommé FOS (fusion of object and scene) Net. De plus, une nouvelle fonction de perte appelée perte de cohérence de scène (SCL) a été développée pour entraîner le FOSNet et améliorer les performances de reconnaissance de scène. La SCL proposée est basée sur les caractéristiques uniques de la scène, où la « scénarité » se propage et la classe de scène ne change pas à travers toute l'image. Le FOSNet proposé a été testé sur trois ensembles de données les plus populaires en reconnaissance de scènes, et des performances d'état de l'art ont été obtenues sur deux ensembles : 60,14 % sur Places 2 et 90,37 % sur MIT indoor 67. Une performance du deuxième rang avec 77,28 % a été obtenue sur SUN 397.