HyperAIHyperAI

Command Palette

Search for a command to run...

Multiskalierbarer multimodaler Transformer für die multimodale Aktenerkennung

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

Zusammenfassung

Obwohl die Aktionserkennung bereits seit mehreren Jahren ein aktives Forschungsfeld darstellt, nutzen die meisten bestehenden Ansätze lediglich die Videomodalität, im Gegensatz zum Menschen, der visuelle und auditive Signale effizient gleichzeitig verarbeitet. Dies begrenzt die Anwendbarkeit moderner Modelle auf Szenarien, in denen Aktionen visuell gut definiert sind. Andererseits können Audio- und Videodaten hierarchisch wahrgenommen werden, beispielsweise von der Audio-Signalproben pro Abtastzeitpunkt über audioaktive Ereignisse bis hin zur Gesamtkategorie in der Audio-Klassifikation. In dieser Arbeit entwickeln wir einen multiskalen multimodalen Transformer (MMT), der hierarchisches Repräsentationslernen nutzt. Insbesondere besteht MMT aus einem neuartigen multiskalen Audio-Transformer (MAT) und einem multiskalen Video-Transformer. Zudem schlagen wir eine Reihe von multimodalen überwachten kontrastiven Zielfunktionen vor, die als Audio-Video-Kontrastverlust (AVC) und intra-modaler Kontrastverlust (IMC) bezeichnet werden und speziell die Ausrichtung der beiden Modalitäten für eine robuste multimodale Repräsentationsfusion ermöglichen. MMT übertrifft die bisherigen State-of-the-Art-Ansätze um 7,3 %, 1,6 % und 2,1 % in Bezug auf die Top-1-Accuracy auf den Datensätzen Kinetics-Sounds, Epic-Kitchens-100 und VGGSound, ohne externe Trainingsdaten zu verwenden. Darüber hinaus übertrifft unser MAT die AST-Modellarchitektur um 22,2 %, 4,4 % und 4,7 % auf den drei öffentlichen Benchmark-Datensätzen und ist basierend auf der Anzahl der FLOPs (Floating Point Operations) um das Dreifache effizienter. Durch umfassende Ablationsstudien und Visualisierungen zeigen wir, dass der vorgeschlagene MMT in der Lage ist, semantisch trennbarere Merkmalsrepräsentationen aus der Kombination von Video- und Audiosignalen effektiv zu erfassen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp