il y a 2 mois

Équations différentielles ordinaires neuronales

Ricky T. Q. Chen; Yulia Rubanova; Jesse Bettencourt; David Duvenaud

Résumé

Nous présentons une nouvelle famille de modèles de réseaux neuronaux profonds. Au lieu de spécifier une séquence discrète de couches cachées, nous paramétrons la dérivée de l'état caché à l'aide d'un réseau neuronal. La sortie du réseau est calculée en utilisant un solveur d'équations différentielles en boîte noire. Ces modèles à profondeur continue ont un coût mémoire constant, adaptent leur stratégie d'évaluation à chaque entrée et peuvent explicitement échanger la précision numérique contre la vitesse. Nous illustrons ces propriétés dans des réseaux résiduels à profondeur continue et des modèles de variables latentes en temps continu. Nous construisons également des flux normalisants continus, un modèle génératif qui peut être entraîné par vraisemblance maximale sans partitionner ou ordonner les dimensions des données. Pour l'entraînement, nous montrons comment effectuer efficacement le rétropropagation à travers tout solveur d'EDO (équation différentielle ordinaire), sans accès à ses opérations internes. Cela permet l'entraînement intégral des EDO au sein de modèles plus vastes.