HyperAIHyperAI
il y a 17 jours

Analyse efficace de scènes multi-tâches avec des Transformers RGB-D

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross
Analyse efficace de scènes multi-tâches avec des Transformers RGB-D
Résumé

L’analyse de scène est essentielle pour permettre aux systèmes autonomes, tels que les robots mobiles, de fonctionner dans des environnements réels. Toutefois, obtenir une compréhension complète de la scène nécessite de résoudre plusieurs tâches, telles que la segmentation panoptique, l’estimation de l’orientation des objets ou encore la classification de scène. Résoudre ces tâches sous les contraintes limitées de puissance de calcul et de batterie propres aux plateformes mobiles constitue un défi majeur. Pour relever ce défi, nous proposons une approche efficace d’analyse de scène multi-tâches, appelée EMSAFormer, qui utilise un encodeur basé sur un Transformer RGB-D pour effectuer simultanément les tâches susmentionnées. Notre méthode s’appuie sur l’architecture précédemment publiée EMSANet, mais nous démontrons que l’encodeur dual à CNN utilisé dans EMSANet peut être remplacé par un seul encodeur basé sur un Transformer. Pour atteindre ce résultat, nous étudions de manière approfondie la manière dont les informations provenant des données RGB et profondeur peuvent être efficacement intégrées dans un seul encodeur. Afin d’accélérer l’inférence sur du matériel robotique, nous fournissons une extension personnalisée pour NVIDIA TensorRT, permettant une optimisation poussée de notre approche EMSAFormer. À travers des expérimentations étendues sur les jeux de données intérieurs couramment utilisés (NYUv2, SUNRGB-D et ScanNet), nous montrons que notre méthode atteint des performances de pointe tout en permettant une inférence pouvant aller jusqu’à 39,1 FPS sur une NVIDIA Jetson AGX Orin 32 Go.

Analyse efficace de scènes multi-tâches avec des Transformers RGB-D | Articles de recherche récents | HyperAI