Lokales Multi-Head-Kanal-Self-Attention für die Gesichtsausdrucksenerkennung

Seit der Einführung der Transformer-Architektur im Jahr 2017 gab es zahlreiche Bemühungen, das Selbst-Attention-Paradigma in das Gebiet der Computer Vision zu integrieren. In diesem Artikel stellen wir ein neuartiges Selbst-Attention-Modul vor, das nahezu jeder konvolutionellen neuronalen Netzwerkarchitektur problemlos beigefügt werden kann und speziell für die Computer Vision entwickelt wurde: das LHC (Local (multi) Head Channel self-attention). LHC basiert auf zwei zentralen Ideen: Erstens halten wir es für die effektivste Herangehensweise, das Selbst-Attention-Paradigma in der Computer Vision kanalbasiert anzuwenden, anstatt wie bisher häufig untersucht, auf räumlicher Ebene; zudem glauben wir, dass Konvolutionen nicht durch Attention-Module ersetzt werden werden, wie dies bei rekurrenten Netzwerken im Bereich der NLP der Fall war. Zweitens zeigt ein lokaler Ansatz das Potenzial, die Beschränkungen der Konvolution besser zu überwinden als globale Attention-Ansätze. Mit LHC-Net konnten wir eine neue State-of-the-Art-Leistung auf dem bekannten FER2013-Datensatz erzielen, wobei die Komplexität deutlich geringer und der Einfluss auf die „Host“-Architektur hinsichtlich der Rechenkosten im Vergleich zur vorherigen State-of-the-Art erheblich reduziert wurde.