HyperAIHyperAI

Command Palette

Search for a command to run...

Asymmetrisches cross-gui­diertes Aufmerksamkeitsnetzwerk für die Aktor- und Aktions-Segmentierung von Videodaten aus natürlichsprachlichen Abfragen

Dacheng Tao Junchi Yan Cheng Deng Hao Wang

Zusammenfassung

Die Segmentierung von Akteuren und Aktionen in Videos anhand natürlicher Sprachanfragen zielt darauf ab, den Akteur und dessen Handlung in einem Video basierend auf einer eingegebenen textuellen Beschreibung gezielt zu segmentieren. Bisherige Ansätze konzentrieren sich hauptsächlich auf die Lernung einfacher Korrelationen zwischen zwei heterogenen Merkmalen aus Vision und Sprache mittels dynamischer oder vollständig konvolutioneller Klassifikation. Diese Ansätze ignorieren jedoch die sprachliche Vielfalt natürlicher Sprachanfragen und haben Schwierigkeiten, den globalen visuellen Kontext angemessen zu modellieren, was zu unzureichenden Segmentierungsergebnissen führt. Um diese Probleme zu lösen, schlagen wir ein asymmetrisches, kreuzgesteuertes Aufmerksamkeitsnetzwerk für die Segmentierung von Akteuren und Aktionen aus natürlichen Sprachanfragen vor. Konkret formulieren wir ein asymmetrisches, kreuzgesteuertes Aufmerksamkeitsnetzwerk, das aus einer visionsgesteuerten Sprach-Aufmerksamkeit besteht, um die sprachliche Variabilität der Eingabeanfrage zu reduzieren, und aus einer sprachgesteuerten Vision-Aufmerksamkeit, um kontextbezogenen, globalen visuellen Inhalt gezielt einzubeziehen. Darüber hinaus integrieren wir ein Multi-Resolution-Fusionsverfahren sowie eine gewichtete Verlustfunktion für Vorder- und Hintergrundpixel, um die Leistung weiter zu steigern. Umfangreiche Experimente auf den Datensätzen Actor-Action Dataset Sentences und J-HMDB Sentences zeigen, dass unser vorgeschlagener Ansatz die state-of-the-art-Methoden deutlich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Asymmetrisches cross-gui­diertes Aufmerksamkeitsnetzwerk für die Aktor- und Aktions-Segmentierung von Videodaten aus natürlichsprachlichen Abfragen | Paper | HyperAI