HyperAIHyperAI
vor 15 Tagen

Multiskalierbarer multimodaler Transformer für die multimodale Aktenerkennung

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Jingru Yi, Wentao Zhu}
Multiskalierbarer multimodaler Transformer für die multimodale Aktenerkennung
Abstract

Obwohl die Aktionserkennung bereits seit mehreren Jahren ein aktives Forschungsfeld darstellt, nutzen die meisten bestehenden Ansätze lediglich die Videomodalität, im Gegensatz zum Menschen, der visuelle und auditive Signale effizient gleichzeitig verarbeitet. Dies begrenzt die Anwendbarkeit moderner Modelle auf Szenarien, in denen Aktionen visuell gut definiert sind. Andererseits können Audio- und Videodaten hierarchisch wahrgenommen werden, beispielsweise von der Audio-Signalproben pro Abtastzeitpunkt über audioaktive Ereignisse bis hin zur Gesamtkategorie in der Audio-Klassifikation. In dieser Arbeit entwickeln wir einen multiskalen multimodalen Transformer (MMT), der hierarchisches Repräsentationslernen nutzt. Insbesondere besteht MMT aus einem neuartigen multiskalen Audio-Transformer (MAT) und einem multiskalen Video-Transformer. Zudem schlagen wir eine Reihe von multimodalen überwachten kontrastiven Zielfunktionen vor, die als Audio-Video-Kontrastverlust (AVC) und intra-modaler Kontrastverlust (IMC) bezeichnet werden und speziell die Ausrichtung der beiden Modalitäten für eine robuste multimodale Repräsentationsfusion ermöglichen. MMT übertrifft die bisherigen State-of-the-Art-Ansätze um 7,3 %, 1,6 % und 2,1 % in Bezug auf die Top-1-Accuracy auf den Datensätzen Kinetics-Sounds, Epic-Kitchens-100 und VGGSound, ohne externe Trainingsdaten zu verwenden. Darüber hinaus übertrifft unser MAT die AST-Modellarchitektur um 22,2 %, 4,4 % und 4,7 % auf den drei öffentlichen Benchmark-Datensätzen und ist basierend auf der Anzahl der FLOPs (Floating Point Operations) um das Dreifache effizienter. Durch umfassende Ablationsstudien und Visualisierungen zeigen wir, dass der vorgeschlagene MMT in der Lage ist, semantisch trennbarere Merkmalsrepräsentationen aus der Kombination von Video- und Audiosignalen effektiv zu erfassen.

Multiskalierbarer multimodaler Transformer für die multimodale Aktenerkennung | Neueste Forschungsarbeiten | HyperAI