NetVLAD : Architecture de CNN pour la reconnaissance de lieux faiblement supervisée

Nous abordons le problème de la reconnaissance visuelle à grande échelle des lieux, où la tâche consiste à reconnaître rapidement et avec précision l'emplacement d'une photographie donnée en tant que requête. Nous présentons les trois contributions principales suivantes. Premièrement, nous développons une architecture de réseau neuronal convolutif (CNN) qui peut être formée de manière end-to-end directement pour la tâche de reconnaissance des lieux. Le principal composant de cette architecture, NetVLAD, est une nouvelle couche VLAD généralisée, inspirée par la représentation d'image « Vector of Locally Aggregated Descriptors » (BoW) couramment utilisée dans la recherche d'images. Cette couche peut être facilement intégrée à n'importe quelle architecture de CNN et est propice à l'apprentissage via la rétropropagation. Deuxièmement, nous élaborons une procédure d'entraînement basée sur une nouvelle perte de classement faiblement supervisée, afin d'apprendre les paramètres de l'architecture de manière end-to-end à partir d'images dépeignant les mêmes lieux au fil du temps téléchargées depuis Google Street View Time Machine. Enfin, nous montrons que l'architecture proposée surpasse significativement les représentations d'images non apprises et les descripteurs CNN prêts à l'emploi sur deux benchmarks difficiles de reconnaissance des lieux, et améliore les représentations d'images compactes actuelles de l'état de l'art sur des benchmarks standard de recherche d'images.