HyperAI

Aufmerksamkeitsmechanismus

Der menschliche Aufmerksamkeitsmechanismus basiert auf Intuition. Es ist ein Mittel für den Menschen, mit begrenzten Ressourcen schnell wertvolle Informationen aus einer großen Menge an Informationen herauszufiltern. Der Aufmerksamkeitsmechanismus beim Deep Learning basiert auf der Denkweise der menschlichen Aufmerksamkeit und wird häufig in verschiedenen Szenarien eingesetzt, beispielsweise bei der Verarbeitung natürlicher Sprache, der Bildklassifizierung, der Spracherkennung usw., und hat bemerkenswerte Ergebnisse erzielt.

 

Encoder-Decoder rahmen

Encoder-Decoder Es handelt sich um ein sehr verbreitetes Modell-Framework im Deep Learning. Bildunterschrift In der Anwendung Encoder-Decoder das heißt CNN-RNN Codierung Dekodierungsrahmen; in neuronalen maschinellen Übersetzungsmodellen Encoder-Decoder Oft ist es LSTM-LSTM Codierung Dekodieren Sie den Frame.

 

Beim Kodieren wird die Eingabesequenz in einen Vektor fester Länge kodiert. Beim Dekodieren wird der zuvor generierte feste Vektor in eine Ausgabesequenz dekodiert.

Aufmerksamkeitsmodell

Das Aufmerksamkeitsmodell wird hauptsächlich beim Deep Learning verwendet, das hauptsächlich in drei Hauptbereiche unterteilt ist: Verständnis natürlicher Sprache, Bilderkennung und Spracherkennung.

  • Natürliches Sprachverständnis

Das Aufmerksamkeitsmodell spielt eine Schlüsselrolle beim Verständnis natürlicher Sprache. Google hat in seiner neuesten maschinellen Übersetzung das Aufmerksamkeitsmodell übernommen, das hauptsächlich dazu dient, Schlüsselwörter aus langen Sätzen oder Absätzen zu extrahieren, wie unten gezeigt:

  • Bilderkennung

Bei der Bilderkennung wird das Attention-Modell zur Bildklassifizierung und Bildgenerierung verwendet. Die folgende Abbildung zeigt eine Anwendung zur Generierung von Bildunterschriften:

In dieser Studie werden die Gewichte des Aufmerksamkeitsmodells visualisiert und im Originalbild angezeigt, also im weißen Bereich des Bildes. Aus dem Bild können wir ersehen, dass Frisbee und Hund jeweils dem Frisbee und Hund im Satz entsprechen.

  • Spracherkennung

Das auf dem Aufmerksamkeitsmodell basierende Encoder-Decoder-Framework erzielte gute Ergebnisse und stellte auch die Entsprechung zwischen Sprache und Wörtern her.