HyperAIHyperAI
il y a 17 jours

Combinaison d’événements et de trames à l’aide de réseaux multimodaux asynchrones récurrents pour la prédiction de profondeur monoculaire

Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza
Combinaison d’événements et de trames à l’aide de réseaux multimodaux asynchrones récurrents pour la prédiction de profondeur monoculaire
Résumé

Les caméras à événements sont des capteurs de vision innovants qui rapportent, sous forme de flux d’« événements » asynchrones, les variations de luminosité par pixel. Elles offrent des avantages significatifs par rapport aux caméras classiques grâce à leur haute résolution temporelle, leur large plage dynamique et l’absence de flou de mouvement. Toutefois, les événements ne mesurent que la composante variable du signal visuel, ce qui limite leur capacité à encoder le contexte scénique. À l’inverse, les caméras classiques capturent des images d’intensité absolue, fournissant une représentation bien plus riche de la scène. Ces deux types de capteurs sont donc complémentaires. Toutefois, en raison de la nature asynchrone des événements, leur fusion avec des images synchrones reste un défi, particulièrement pour les méthodes basées sur l’apprentissage automatique. Cela s’explique par le fait que les réseaux de neurones récurrents (RNN) traditionnels ne sont pas conçus pour traiter des données asynchrones et irrégulières provenant de capteurs supplémentaires. Pour relever ce défi, nous introduisons les réseaux RAM (Recurrent Asynchronous Multimodal), qui généralisent les RNN classiques afin de gérer efficacement des données asynchrones et irrégulières provenant de plusieurs capteurs. Inspirés des RNN traditionnels, les réseaux RAM maintiennent un état caché mis à jour de manière asynchrone et pouvant être interrogé à tout moment pour générer une prédiction. Nous appliquons cette architecture novatrice à l’estimation de la profondeur monoscopique à partir d’événements et d’images, où nous démontrons une amélioration par rapport aux méthodes de pointe, pouvant atteindre jusqu’à 30 % en termes d’erreur absolue moyenne de profondeur. Afin de stimuler les recherches futures sur l’apprentissage multimodal avec des événements, nous rendons public le nouveau jeu de données EventScape, comprenant des événements, des images d’intensité, des étiquettes sémantiques et des cartes de profondeur, tous enregistrés dans le simulateur CARLA.