HyperAIHyperAI
il y a 17 jours

FastFlowNet : un réseau léger pour une estimation rapide du flux optique

Lingtong Kong, Chunhua Shen, Jie Yang
FastFlowNet : un réseau léger pour une estimation rapide du flux optique
Résumé

L’estimation de flux optique dense joue un rôle clé dans de nombreuses tâches de vision robotique. Ces dernières années, grâce à l’avènement du deep learning, des progrès considérables ont été réalisés dans le domaine de l’estimation du flux optique. Toutefois, les réseaux actuels sont généralement composés d’un grand nombre de paramètres et nécessitent des coûts de calcul élevés, ce qui limite fortement leur application sur des dispositifs à faible consommation énergétique tels que les téléphones portables. Dans cet article, nous abordons ce défi en concevant un modèle léger permettant une prédiction rapide et précise du flux optique. Notre modèle proposé, FastFlowNet, suit le paradigme largement utilisé « grossier vers fin » et introduit plusieurs innovations. Premièrement, un nouvel extracteur de caractéristiques appelé pyramide de pooling améliorée par tête (HEPP) est utilisé afin de renforcer les caractéristiques de haute résolution tout en réduisant le nombre de paramètres. Deuxièmement, nous proposons une nouvelle couche de corrélation dilatée dense centrée (CDDC) pour construire une volume de coût compact, capable de maintenir un rayon de recherche important tout en réduisant la charge de calcul. Troisièmement, un décodeur à blocs de permutation efficace (SBD) est intégré à chaque niveau de la pyramide afin d’accélérer l’estimation du flux avec une perte négligeable en précision. Des expériences menées sur les jeux de données synthétiques Sintel et les données réelles KITTI démontrent l’efficacité de l’approche proposée, qui nécessite uniquement 1/10 des calculs des réseaux comparables pour atteindre une précision équivalente. En particulier, FastFlowNet ne contient que 1,37 million de paramètres et peut fonctionner à 90 FPS (sur une seule GTX 1080Ti) ou à 5,7 FPS (sur GPU embarqué Jetson TX2) pour une paire d’images Sintel de résolution 1024×436.