HyperAIHyperAI

Command Palette

Search for a command to run...

UnICORNN : Un modèle récurrent pour l'apprentissage de dépendances temporelles très longues

T. Konstantin Rusch Siddhartha Mishra

Résumé

La conception de réseaux de neurones récurrents (RNN) capables de traiter avec précision des entrées séquentielles à longues dépendances temporelles est très complexe en raison du problème des gradients explosifs et évanescent. Pour surmonter cette difficulté, nous proposons une nouvelle architecture de RNN basée sur une discrétisation préservant la structure d'un système hamiltonien d'équations différentielles ordinaires du second ordre modélisant des réseaux d'oscillateurs. Le RNN résultant est rapide, inversible (dans le temps), efficace en termes de mémoire, et nous établissons des bornes rigoureuses sur les gradients de l'état caché pour prouver l'atténuation du problème des gradients explosifs et évanescent. Une série d'expériences est présentée pour démontrer que le RNN proposé offre des performances de pointe sur diverses tâches d'apprentissage impliquant des dépendances temporelles (très) longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UnICORNN : Un modèle récurrent pour l'apprentissage de dépendances temporelles très longues | Articles | HyperAI