Apprentissage à plusieurs niveaux d'ordre second avec peu d'exemples

Nous proposons un réseau d'apprentissage à partir de peu d'exemples (few-shot learning) à plusieurs niveaux et de deuxième ordre (Multi-level Second-order, MlSo) pour la classification d'images et la reconnaissance d'actions supervisées ou non supervisées. Nous utilisons des flux d'apprenants de base de deuxième ordre normalisés par puissance, combinés avec des caractéristiques exprimant plusieurs niveaux d'abstraction visuelle, et nous mettons en œuvre des mécanismes de discrimination auto-supervisée. Comme le pooling de deuxième ordre (Second-order Pooling, SoP) est largement utilisé dans la reconnaissance d'images, nous intégrons sa variante élémentaire de base dans notre pipeline. L'objectif du design multicouche des caractéristiques est d'extraire des représentations de caractéristiques à différents niveaux couche par couche du CNN, réalisant ainsi plusieurs niveaux d'abstraction visuelle pour obtenir un apprentissage robuste à partir de peu d'exemples. Étant donné que le SoP peut traiter des cartes de caractéristiques convolutionnelles de tailles spatiales variables, nous introduisons également des entrées d'images à différentes échelles spatiales dans le MlSo. Pour exploiter les informations discriminantes provenant des caractéristiques multiscalaire et multiniveaux, nous développons un module de correspondance de caractéristiques (Feature Matching, FM) qui réajuste les poids respectifs de leurs branches. Nous introduisons également une étape auto-supervisée qui discrimine le niveau spatial et l'échelle d'abstraction. Notre pipeline est formé selon une approche bout-en-bout. Avec une architecture simple, nous démontrons des résultats notables sur des jeux de données standards tels que Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, ainsi que sur des jeux de données fine-grained comme CUB Birds, Stanford Dogs et Cars, et sur des jeux de données de reconnaissance d'actions tels que HMDB51, UCF101 et mini-MIT.