M-FUSE : Fusion de cadres multiples pour l'estimation du flux de scène

Récemment, les réseaux de neurones pour l'estimation du flux de scène ont obtenu des résultats remarquables sur des données automobiles telles que le benchmark KITTI. Toutefois, malgré l'utilisation d'hypothèses de rigidité et de paramétrisations sophistiquées, ces réseaux sont généralement limités à l'analyse de paires de cadres consécutifs, ce qui empêche leur exploitation efficace des informations temporelles. Dans notre travail, nous remédions à cette limitation en proposant une nouvelle approche multi-images qui intègre une paire stéréo supplémentaire antérieure. Pour ce faire, nous suivons une démarche en deux étapes : premièrement, en nous appuyant sur l'approche récente RAFT-3D, nous développons une base améliorée pour deux cadres en intégrant une méthode stéréo avancée ; deuxièmement, et surtout, en exploitant les concepts spécifiques de modélisation de RAFT-3D, nous proposons une architecture U-Net capable de fusionner les estimations de flux avant et arrière, permettant ainsi d'intégrer de manière flexible les informations temporelles. Les expériences menées sur le benchmark KITTI montrent non seulement que les avantages de la base améliorée et de l'approche de fusion temporelle se complètent mutuellement, mais aussi que le flux de scène calculé est extrêmement précis. Plus précisément, notre méthode se classe deuxième au classement global et première pour les objets du premier plan, qui représentent un défi encore plus élevé, dépassant globalement la méthode originale RAFT-3D de plus de 16 %. Le code est disponible à l'adresse suivante : https://github.com/cv-stuttgart/M-FUSE.