Mécanisme D'attention
Le mécanisme d’attention humaine est basé sur l’intuition. Il s’agit d’un moyen pour les humains d’utiliser des ressources limitées pour filtrer rapidement des informations de grande valeur parmi une grande quantité d’informations. Le mécanisme d'attention dans l'apprentissage profond s'appuie sur le mode de réflexion de l'attention humaine et a été largement utilisé dans divers types de scénarios tels que le traitement du langage naturel, la classification d'images, la reconnaissance vocale, etc., et a obtenu des résultats remarquables.
Encodeur-Décodeur cadre
Encodeur-Décodeur Il s’agit d’un cadre de modèle très courant dans l’apprentissage en profondeur. Légende de l'image Dans l'application Encodeur-Décodeur c'est CNN-RNN Codage– Cadre de décodage ; dans les modèles de traduction automatique neuronale Encodeur-Décodeur C'est souvent le cas LSTM-LSTM Codage– Décoder le cadre.
L'encodage consiste à encoder la séquence d'entrée dans un vecteur de longueur fixe ; le décodage consiste à décoder le vecteur fixe précédemment généré en une séquence de sortie.
Modèle d'attention
Le modèle Attention est principalement utilisé dans l'apprentissage profond, qui est principalement divisé en trois domaines principaux : la compréhension du langage naturel, la reconnaissance d'images et la reconnaissance vocale.
- Compréhension du langage naturel
Le modèle d’attention joue un rôle clé dans la compréhension du langage naturel. Google a adopté le modèle Attention dans sa dernière traduction automatique, qui est principalement utilisé pour extraire des mots-clés de longues phrases ou de longs paragraphes, comme indiqué ci-dessous :
- Reconnaissance d'images
Dans la reconnaissance d'images, le modèle Attention est utilisé pour la classification et la génération d'images. La figure suivante est une application de génération de légende d’image :
Dans cette étude, les poids du modèle Attention sont visualisés et affichés dans l’image d’origine, qui est la zone blanche de l’image. D'après l'image, nous pouvons voir que le frisbee et le chien correspondent respectivement au frisbee et au chien dans la phrase.
- Reconnaissance vocale
Le cadre Encodeur-Décodeur basé sur le modèle Attention a obtenu de bons résultats et a également établi la correspondance entre la parole et les mots.