Soient les SSM des ConvNets : Modélisation d'espaces d'état avec des contractions tensorielles optimales

Nous présentons Centaurus, une classe de réseaux composés de blocs de modèles d'espace d'état généralisés (SSM), où les opérations SSM peuvent être traitées comme des contractions de tenseurs lors de l'entraînement. L'ordre optimal des contractions de tenseurs peut ensuite être déterminé systématiquement pour chaque bloc SSM afin d'optimiser l'efficacité de l'entraînement. Cela permet une plus grande flexibilité dans la conception des blocs SSM, au-delà de la configuration séparable en profondeur couramment utilisée. Les nouvelles options de conception s'inspireront des blocs convolutionnels classiques, notamment les convolutions par groupes, les convolutions complètes et les blocs bottleneck. Nous concevons le réseau Centaurus avec un mélange de ces blocs, afin d'équilibrer la taille du réseau et ses performances, ainsi que l'efficacité mémoire et computationnelle pendant l'entraînement et l'inférence. Nous montrons que cette conception hétérogène de réseau surpasse ses homologues homogènes dans des tâches de traitement audio brut telles que la détection de mots-clés, le débruitage vocal et la reconnaissance automatique de la parole (ASR). Pour ASR, Centaurus est le premier réseau à présenter des performances compétitives qui peut être entièrement basé sur l'espace d'état, sans utiliser aucune récurrence non linéaire (LSTMs), convolutions explicites (CNNs) ou mécanisme d'attention (surrogate). Le code source est disponible en tant que matériel supplémentaire sur https://openreview.net/forum?id=PkpNRmBZ32.