HyperAIHyperAI
vor 2 Monaten

Audio-verbesserter Text-zu-Video-Retrieval unter Verwendung von textbedingtem Merkmalausrichtung

Sarah Ibrahimi; Xiaohang Sun; Pichao Wang; Amanmeet Garg; Ashutosh Sanan; Mohamed Omar
Audio-verbesserter Text-zu-Video-Retrieval unter Verwendung von textbedingtem Merkmalausrichtung
Abstract

Text-to-Video-Retrieval-Systeme haben kürzlich durch die Nutzung von vortrainierten Modellen, die auf großen Mengen an Bild-Text-Paaren trainiert wurden, erhebliche Fortschritte gemacht. Dennoch konzentrieren sich die meisten der neuesten Methoden hauptsächlich auf das Video-Modul und ignorieren dabei das Audiosignal für diese Aufgabe. Ein jüngeres Fortschritt durch ECLIPSE hat jedoch die langfristige Text-to-Video-Retrieval durch die Entwicklung einer audiovisuellen Videodarstellung verbessert. Trotzdem besteht das Ziel des Text-to-Video-Retrieval in der Erfassung ergänzender audiovisueller Informationen, die für die Textanfrage relevant sind, und nicht einfach in einer besseren Ausrichtung von Audio und Video. Um dieses Problem anzugehen, stellen wir TEFAL vor, eine Methode zur textbedingten Merkmalausrichtung (TExt-conditioned Feature ALignment), die sowohl auditive als auch visuelle Darstellungen unter Berücksichtigung der Textanfrage erzeugt. Anstatt nur einen audiovisuellen Aufmerksamkeitsblock zu verwenden, der relevante auditive Informationen für die Textanfrage unterdrücken könnte, setzt unser Ansatz zwei unabhängige multimodale Aufmerksamkeitsblöcke ein, die es dem Text ermöglichen, sich getrennt auf auditive und visuelle Darstellungen zu konzentrieren. Die Wirksamkeit unserer vorgeschlagenen Methode wird anhand von vier Benchmark-Datensätzen mit Audio bewiesen: MSR-VTT, LSMDC, VATEX und Charades. Sie erreicht über alle vier Datensätze hinweg stets bessere Ergebnisse als der aktuelle Stand der Technik. Dies ist darauf zurückzuführen, dass die zusätzliche textanfragebedingte audiovisuelle Darstellung ergänzende Informationen zur textanfragebedingten visuellen Darstellung hinzufügt.