HyperAIHyperAI

Command Palette

Search for a command to run...

4D Spatio-Temporel ConvNets : Réseaux de Neurones Convolutifs de Minkowski

Christopher Choy JunYoung Gwak Silvio Savarese

Résumé

Dans de nombreuses applications en robotique et en réalité virtuelle/augmentée (RV/RA), les vidéos 3D constituent des sources d'entrée facilement disponibles (une séquence continue d'images de profondeur ou de balayages LIDAR). Cependant, ces vidéos 3D sont généralement traitées image par image, soit par des réseaux de neurones convolutifs 2D (ConvNets), soit par des algorithmes de perception 3D. Dans cette étude, nous proposons des réseaux de neurones convolutifs 4-dimensionnels pour la perception spatio-temporelle, capables de traiter directement ces vidéos 3D à l'aide de convolutions multidimensionnelles. Pour ce faire, nous adoptons des tenseurs creux et proposons la convolution creuse généralisée qui englobe toutes les convolutions discrètes. Afin d'implémenter cette convolution creuse généralisée, nous créons une bibliothèque d'auto-différentiation open-source pour les tenseurs creux, offrant une gamme complète de fonctions pour les réseaux de neurones convolutifs multidimensionnels. Nous utilisons cette bibliothèque pour créer des réseaux de neurones convolutifs spatio-temporels 4D et les valider sur diverses benchmarks de segmentation sémantique 3D ainsi que sur des jeux de données 4D proposés pour la perception des vidéos 3D. Pour surmonter les défis liés à l'espace 4D, nous proposons le noyau hybride, un cas particulier de la convolution creuse généralisée, et le champ aléatoire conditionnel trilatéral stationnaire qui impose une cohérence spatio-temporelle dans l'espace temps-espace-couleur à 7 dimensions. Expérimentalement, nous démontrons que les réseaux de neurones convolutifs utilisant uniquement des convolutions creuses généralisées 3D peuvent surpasser considérablement les méthodes 2D ou hybrides 2D-3D. De plus, nous montrons que pour les vidéos 3D, les réseaux de neurones convolutifs spatio-temporels 4D sont robustes au bruit, surpassent les réseaux de neurones convolutifs 3D et sont plus rapides que leurs homologues 3D dans certains cas.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp