vor 17 Tagen

Batch Transformer: Aufmerksamkeit in Batch suchen

Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han

Abstract

Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) hat in der Computer Vision erhebliche Aufmerksamkeit erhalten, insbesondere in „in-the-wild“-Umgebungen wie der Mensch-Computer-Interaktion. Allerdings enthalten FER-Bilder zahlreiche Unsicherheiten, wie z. B. Verdeckung, geringe Auflösung, Veränderungen der Kopfhaltung, Lichtverhältnisse sowie Subjektivität, wobei einige Ausdrücke nicht mit der jeweiligen Zielbezeichnung übereinstimmen. Hierdurch wird aus einem verrauschten einzelnen Bild nur wenig verlässliche Information gewonnen, die nicht als zuverlässig angesehen werden kann. Dies kann die Leistungsfähigkeit der FER-Aufgabe erheblich beeinträchtigen. Um dieses Problem anzugehen, schlagen wir einen Batch-Transformer (Batch Transformer, BT) vor, der den vorgeschlagenen Class Batch Attention (CBA)-Modul enthält. Dieser verhindert Overfitting bei verrauschten Daten und extrahiert verlässliche Informationen, indem er auf Merkmalen basiert, die aus mehreren Bildern einer Batch abgeleitet werden, anstatt auf Informationen aus einem einzelnen Bild. Zusätzlich präsentieren wir ein Multi-Level Attention (MLA)-Modul, das Overfitting spezifischer Merkmale verhindert, indem es Korrelationen zwischen verschiedenen Merkmalsstufen erfasst. In diesem Artikel stellen wir ein Batch Transformer Network (BTN) vor, das die oben genannten Ansätze integriert. Experimentelle Ergebnisse auf mehreren FER-Benchmark-Datensätzen zeigen, dass das vorgeschlagene BTN konsistent die derzeit besten Ergebnisse auf FER-Datensätzen erreicht. Representative Ergebnisse unterstreichen das hohe Potenzial des vorgeschlagenen BTN für die FER-Aufgabe.