HyperAIHyperAI
il y a 12 jours

Apprentissage profond basé sur des images RGB et thermiques embarquées sur un drone pour la surveillance opérationnelle

{Helmut Prendinger, Yutaka Matsuo, Mondher Bouazizi, Satoshi Suzuki, Bastien Rigault, Artur Gonçalves, Simon Speth}
Résumé

Cet article décrit la composante intelligence artificielle (IA) d’un drone destiné aux missions de surveillance et de patrouille dans le cadre d’interventions de secours après désastres, dans des scénarios spécifiques et restreints définis par la Fondation japonaise pour la robotique avancée. La composante IA repose sur des modèles d’apprentissage profond pour la reconnaissance de l’environnement et la détection d’objets. Pour la reconnaissance de l’environnement, nous utilisons la segmentation sémantique, ou étiquetage pixel par pixel, à partir d’images RGB. La détection d’objets est essentielle pour localiser les personnes en détresse. Étant donné que les personnes apparaissent comme des objets relativement petits depuis la perspective du drone, nous utilisons à la fois des images RGB et des images thermiques. Pour entraîner nos modèles, nous avons créé un nouveau jeu de données multispectrale, public et dédié aux personnes. Nous avons appliqué une méthode de géolocalisation pour situer les personnes au sol. Les modèles de segmentation sémantique ont été rigoureusement évalués en utilisant différents extracteurs de caractéristiques. Nous avons conçu deux jeux de données spécifiques, que nous mettons à disposition publiquement. Par rapport au modèle de référence, le meilleur modèle a permis d’augmenter le taux moyen d’intersection sur union (IoU) de 1,3 %. Par ailleurs, nous avons comparé deux types de modèles de détection de personnes : le premier est un modèle ensembliste qui combine les informations RGB et thermiques par « fusion tardive » ; le second est un modèle à quatre canaux qui intègre ces deux sources d’information par « fusion précoce ». Les résultats indiquent que le modèle à quatre canaux a amélioré de 40,6 % la précision moyenne pour des seuils stricts d’IoU (0,75), par rapport au modèle ensembliste, et de 5,8 % par rapport au modèle uniquement thermique. Tous les modèles ont été déployés et testés sur la plateforme NVIDIA AGX Xavier. À notre connaissance, cette étude constitue la première à exploiter simultanément les données RGB et thermiques perçues par un drone pour des tâches de surveillance.