il y a 2 mois

4D Spatio-Temporel ConvNets : Réseaux de Neurones Convolutifs de Minkowski

Choy, Christopher ; Gwak, JunYoung ; Savarese, Silvio

Résumé

Dans de nombreuses applications en robotique et en réalité virtuelle/augmentée (RV/RA), les vidéos 3D constituent des sources d'entrée facilement disponibles (une séquence continue d'images de profondeur ou de balayages LIDAR). Cependant, ces vidéos 3D sont généralement traitées image par image, soit par des réseaux de neurones convolutifs 2D (ConvNets), soit par des algorithmes de perception 3D. Dans cette étude, nous proposons des réseaux de neurones convolutifs 4-dimensionnels pour la perception spatio-temporelle, capables de traiter directement ces vidéos 3D à l'aide de convolutions multidimensionnelles. Pour ce faire, nous adoptons des tenseurs creux et proposons la convolution creuse généralisée qui englobe toutes les convolutions discrètes. Afin d'implémenter cette convolution creuse généralisée, nous créons une bibliothèque d'auto-différentiation open-source pour les tenseurs creux, offrant une gamme complète de fonctions pour les réseaux de neurones convolutifs multidimensionnels. Nous utilisons cette bibliothèque pour créer des réseaux de neurones convolutifs spatio-temporels 4D et les valider sur diverses benchmarks de segmentation sémantique 3D ainsi que sur des jeux de données 4D proposés pour la perception des vidéos 3D. Pour surmonter les défis liés à l'espace 4D, nous proposons le noyau hybride, un cas particulier de la convolution creuse généralisée, et le champ aléatoire conditionnel trilatéral stationnaire qui impose une cohérence spatio-temporelle dans l'espace temps-espace-couleur à 7 dimensions. Expérimentalement, nous démontrons que les réseaux de neurones convolutifs utilisant uniquement des convolutions creuses généralisées 3D peuvent surpasser considérablement les méthodes 2D ou hybrides 2D-3D. De plus, nous montrons que pour les vidéos 3D, les réseaux de neurones convolutifs spatio-temporels 4D sont robustes au bruit, surpassent les réseaux de neurones convolutifs 3D et sont plus rapides que leurs homologues 3D dans certains cas.