FAR : Reconnaissance de vidéos aériennes par transformée de Fourier

Nous présentons un algorithme, appelé Reconnaissance d’Activités par Transformée de Fourier (FAR), destiné à la reconnaissance d’activités dans des vidéos capturées par des drones (UAV). Notre approche repose sur une méthode novatrice de désempêtement des objets par transformée de Fourier, permettant de séparer naturellement l’agent humain (généralement de petite taille) du fond. Notre technique de désempêtement opère dans le domaine fréquentiel afin de caractériser l’ampleur des variations temporelles des pixels spatiaux, et exploite les propriétés de convolution-multiplication de la transformée de Fourier pour mapper cette représentation vers les caractéristiques entrelacées objet-fond extraites par le réseau. Pour capturer efficacement les informations contextuelles et les dépendances spatio-temporelles à longue portée, nous proposons un nouvel algorithme d’attention de Fourier, qui reproduit les avantages de l’attention auto-attentionnelle en modélisant le produit externe pondéré dans le domaine fréquentiel. La formulation de notre attention de Fourier nécessite significativement moins de calculs que l’attention auto-attentionnelle classique. Nous avons évalué notre méthode sur plusieurs jeux de données UAV, notamment UAV Human RGB, UAV Human Night, Drone Action et NEC Drone. Nos expérimentations montrent une amélioration relative de 8,02 % à 38,69 % en précision top-1, ainsi qu’une accélération allant jusqu’à trois fois par rapport aux approches antérieures.