Asymmetrisches cross-guidiertes Aufmerksamkeitsnetzwerk für die Aktor- und Aktions-Segmentierung von Videodaten aus natürlichsprachlichen Abfragen

Die Segmentierung von Akteuren und Aktionen in Videos anhand natürlicher Sprachanfragen zielt darauf ab, den Akteur und dessen Handlung in einem Video basierend auf einer eingegebenen textuellen Beschreibung gezielt zu segmentieren. Bisherige Ansätze konzentrieren sich hauptsächlich auf die Lernung einfacher Korrelationen zwischen zwei heterogenen Merkmalen aus Vision und Sprache mittels dynamischer oder vollständig konvolutioneller Klassifikation. Diese Ansätze ignorieren jedoch die sprachliche Vielfalt natürlicher Sprachanfragen und haben Schwierigkeiten, den globalen visuellen Kontext angemessen zu modellieren, was zu unzureichenden Segmentierungsergebnissen führt. Um diese Probleme zu lösen, schlagen wir ein asymmetrisches, kreuzgesteuertes Aufmerksamkeitsnetzwerk für die Segmentierung von Akteuren und Aktionen aus natürlichen Sprachanfragen vor. Konkret formulieren wir ein asymmetrisches, kreuzgesteuertes Aufmerksamkeitsnetzwerk, das aus einer visionsgesteuerten Sprach-Aufmerksamkeit besteht, um die sprachliche Variabilität der Eingabeanfrage zu reduzieren, und aus einer sprachgesteuerten Vision-Aufmerksamkeit, um kontextbezogenen, globalen visuellen Inhalt gezielt einzubeziehen. Darüber hinaus integrieren wir ein Multi-Resolution-Fusionsverfahren sowie eine gewichtete Verlustfunktion für Vorder- und Hintergrundpixel, um die Leistung weiter zu steigern. Umfangreiche Experimente auf den Datensätzen Actor-Action Dataset Sentences und J-HMDB Sentences zeigen, dass unser vorgeschlagener Ansatz die state-of-the-art-Methoden deutlich übertrifft.