HyperAIHyperAI
il y a 3 mois

FiDO : Fusion-in-Decoder optimisée pour des performances plus élevées et une inférence plus rapide

Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas FitzGerald, Sumit Sanghai, Fei Sha, William Cohen
FiDO : Fusion-in-Decoder optimisée pour des performances plus élevées et une inférence plus rapide
Résumé

Fusion-in-Decoder (FiD) est un modèle linguistique enrichi par récupération (retrieval-augmented) puissant qui atteint l’état de l’art sur de nombreuses tâches NLP intensives en connaissances. Toutefois, l’architecture initiale de FiD a été obtenue en apportant uniquement de minimes modifications à un modèle T5 standard, ce que notre analyse révèle être hautement sous-optimisé pour un modèle enrichi par récupération. En particulier, FiD alloue la majeure partie des opérations flottantes (FLOPs) au encodeur, tandis que la majorité du temps d’inférence est limitée par les contraintes de bande passante mémoire dans le décodeur. Nous proposons deux modifications simples à l’architecture de FiD afin de réduire ces contraintes de bande passante mémoire, permettant ainsi d’accélérer l’inférence jusqu’à 7 fois. Cela nous permet d’utiliser un décodeur bien plus grand à un coût modeste. Nous désignons par FiDO le modèle FiD modifié selon ces améliorations, et montrons qu’il améliore significativement les performances par rapport aux versions existantes de FiD sur une large gamme de budgets d’inférence. Par exemple, FiDO-Large-XXL réalise une inférence plus rapide que FiD-Base tout en atteignant des performances supérieures à celles de FiD-Large.