FUSION : Génération Rapide et Privée de Texte

L'augmentation drastique des paramètres des modèles de langage a conduit à une nouvelle tendance consistant à déployer ces modèles sur des serveurs cloud, suscitant des inquiétudes croissantes concernant l'inférence privée pour les modèles basés sur les Transformers. Les techniques existantes de préservation de la vie privée en deux parties ne prennent en compte que les scénarios de compréhension du langage naturel (NLU). L'inférence privée dans la génération de langage naturel (NLG), essentielle pour des applications telles que la traduction et l'achèvement de code, reste sous-explorée. De plus, les techniques précédentes de préservation de la vie privée souffrent de problèmes de convergence lors de l'entraînement du modèle et présentent une vitesse d'inférence médiocre lorsqu'elles sont utilisées avec des modèles NLG, en raison du négligence des opérations chronophages dans les générations auto-régressives.Pour remédier à ces problèmes, nous proposons un cadre rapide pour la génération privée de texte pour les modèles de langage basés sur les Transformers, appelé MERGE. MERGE réutilise l'état caché en sortie comme plongement lexical (word embedding) pour contourner le calcul du plongement et réorganise les opérations linéaires dans le module Transformer afin d'accélérer la procédure avant. Des expériences approfondies montrent que MERGE atteint un accélération de 26,5 fois par rapport au modèle chiffré classique pour une longueur de séquence de 512, et réduit les coûts de communication de 80%, avec jusqu'à 10 fois d'accélération par rapport aux modèles approximatifs les plus avancés.