Modèle De Transformateur
Le modèle Transformer a été lancé par une équipe de Google Brain en 2017 et a progressivement remplacé les modèles RNN tels que Long Short-Term Memory (LSTM) pour devenir le modèle de choix pour les problèmes de PNL. L’avantage de la parallélisation permet de l’entraîner sur des ensembles de données plus volumineux. Cela a également contribué au développement de modèles pré-entraînés tels que BERT et GPT. Ces systèmes sont formés à l’aide de grands corpus tels que Wikipédia et Common Crawl, et peuvent être affinés pour des tâches spécifiques.
Le modèle Transformer est un modèle d’apprentissage en profondeur qui utilise un mécanisme d’auto-attention, qui peut attribuer différents poids à différentes parties des données d’entrée en fonction de leur importance. Ce modèle est principalement utilisé dans les domaines du traitement du langage naturel (TAL) et de la vision par ordinateur (CV).
Comme les réseaux neuronaux récurrents (RNN), le modèle Transformer est conçu pour traiter des données d'entrée séquentielles telles que le langage naturel et peut être appliqué à des tâches telles que la traduction et le résumé de texte. Contrairement au RNN, le modèle Transformer peut traiter toutes les données d’entrée à la fois. Le mécanisme d’attention peut fournir un contexte pour n’importe quelle position dans la séquence d’entrée. Si les données d’entrée sont en langage naturel, Transformer n’a pas besoin de traiter un seul mot à la fois comme RNN. Cette architecture permet davantage de calcul parallèle et réduit ainsi le temps de formation.
former
Les modèles de transformateurs subissent généralement un apprentissage auto-supervisé, comprenant une pré-formation non supervisée et un réglage fin supervisé. Étant donné que les données de formation étiquetées utilisées pour le réglage fin supervisé sont généralement limitées, la pré-formation est généralement effectuée sur un ensemble de données plus grand que celui utilisé pour le réglage fin. Les tâches de pré-formation et de mise au point comprennent généralement :
- Modélisation du langage
- Prédiction de la phrase suivante
- Système de réponse aux questions
- Compréhension de lecture
- Analyse des sentiments textuels
- Réécriture de texte
application
Le modèle Transformer a connu un grand succès dans le domaine du traitement du langage naturel (TALN), comme la traduction automatique et les tâches de prédiction de séries chronologiques. De nombreux modèles pré-entraînés, notamment GPT-2, GPT-3, BERT, XLNet et RoBERTa, démontrent la capacité du modèle Transformer à effectuer diverses tâches liées au PNL et ont de nombreuses applications pratiques potentielles. Ces applications comprennent :
- Traduction automatique
- Résumé du texte
- Génération de texte
- Reconnaissance d'entité nommée
- Analyse de séquence biologique
- Compréhension de la vidéo
En 2020, l'architecture Transformer (plus précisément GPT-2) s'est avérée capable d'effectuer la tâche de jouer aux échecs grâce à un réglage fin. Les modèles de transformateurs ont également été appliqués au traitement d’images avec des résultats comparables à ceux des réseaux neuronaux convolutifs.
Références
【1】https://zh.wikipedia.org/wiki/Transformer%E6%A8%A1%E5%9E%8B#cite_note-:6-4