HyperAIHyperAI
il y a 11 jours

Parallélisation des modèles séquentiels non linéaires sur la longueur de la séquence

Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim
Parallélisation des modèles séquentiels non linéaires sur la longueur de la séquence
Résumé

Les modèles séquentiels, tels que les Réseaux de neurones récurrents (RNN) et les Équations différentielles ordinaires neuronales (Neural ODE), ont longtemps souffert d’un entraînement lent en raison de leur nature intrinsèquement séquentielle. Pendant de nombreuses années, ce goulot d’étranglement s’est maintenu, car de nombreux chercheurs pensaient que ces modèles ne pouvaient pas être parallélisés. Nous remettons en question cette croyance établie grâce à notre algorithme parallèle, qui accélère l’évaluation sur GPU des modèles séquentiels jusqu’à 1000 fois sans compromettre la précision des sorties. Contrairement à d’autres approches, cet algorithme ne nécessite aucune structure particulière dans l’architecture des modèles séquentiels, ce qui en fait une solution applicable à une large gamme d’architectures. Grâce à notre méthode, l’entraînement des modèles séquentiels peut être plus de dix fois plus rapide que la méthode séquentielle classique, sans différence significative dans les résultats d’entraînement. En exploitant cet entraînement accéléré, nous avons découvert l’efficacité du Gated Recurrent Unit (GRU) dans un problème de classification de séries temporelles longues comprenant 17 000 échantillons temporels. En surmontant ce goulot d’étranglement d’entraînement, notre travail constitue une première étape essentielle vers la mise en œuvre du potentiel des modèles séquentiels non linéaires pour les problèmes à séquences longues.

Parallélisation des modèles séquentiels non linéaires sur la longueur de la séquence | Articles de recherche récents | HyperAI