HyperAIHyperAI

Command Palette

Search for a command to run...

Sur l'état de l'art de l'évaluation dans les modèles de langage neuronaux

Gábor Melis; Chris Dyer; Phil Blunsom

Résumé

Les innovations continues dans les architectures des réseaux de neurones récurrents ont fourni un flux constant de résultats apparemment de pointe sur les benchmarks de modélisation linguistique. Cependant, ces évaluations ont été réalisées à l'aide de bases de code différentes et de ressources computationnelles limitées, ce qui représente des sources non contrôlées de variation expérimentale. Nous avons réévalué plusieurs architectures populaires et méthodes de régularisation en utilisant une optimisation automatique à grande échelle des hyperparamètres par boîte noire, et nous sommes arrivés à la conclusion quelque peu surprenante que les architectures LSTM standard, lorsqu'elles sont correctement régularisées, surpassent les modèles plus récents. Nous établissons un nouveau niveau de référence sur les corpus Penn Treebank et Wikitext-2, ainsi que des baselines solides sur le dataset du Hutter Prize (Hutter Prize).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp