HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Neurones Hiérarchiques Focalisés pour le Traitement Conditionnel de Séquences

Nan Rosemary Ke; Konrad Zolna; Alessandro Sordoni; Zhouhan Lin; Adam Trischler; Yoshua Bengio; Joelle Pineau; Laurent Charlin; Chris Pal

Résumé

Les Réseaux de Neurones Récursifs (RNNs) avec des mécanismes d'attention ont obtenu des résultats de pointe pour de nombreuses tâches de traitement de séquences. La plupart de ces modèles utilisent une forme simple d'encodeur avec attention qui parcourt l'ensemble de la séquence et attribue un poids à chaque jeton indépendamment. Nous présentons un mécanisme permettant aux encodeurs RNN de se concentrer sur les tâches de modélisation de séquences, leur permettant d'accorder une attention aux parties clés de l'entrée selon les besoins. Nous formulons cela en utilisant un encodeur de séquence conditionnel multicouche qui lit un jeton à la fois et prend une décision discrète sur la pertinence du jeton au contexte ou à la question posée. Le mécanisme de porte discrète prend en entrée l'embedding du contexte et l'état caché actuel, et contrôle le flux d'information vers la couche supérieure. Nous l'entraînons en utilisant des méthodes par gradients de politique. Nous évaluons cette méthode sur plusieurs types de tâches ayant différentes caractéristiques. Premièrement, nous évaluons la méthode sur des tâches synthétiques qui nous permettent d'évaluer les capacités de généralisation du modèle et d'examiner le comportement des portes dans des conditions plus contrôlées. Ensuite, nous évaluons cette approche sur des tâches d'Interrogation-Réponse à grande échelle, notamment les tâches difficiles MS MARCO et SearchQA. Nos modèles montrent des améliorations constantes pour ces deux tâches par rapport aux travaux antérieurs et à nos modèles baselines. Ils ont également montré une généralisation significativement meilleure sur les tâches synthétiques comparativement aux baselines.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de Neurones Hiérarchiques Focalisés pour le Traitement Conditionnel de Séquences | Articles | HyperAI