Schwach beschriftete zeitliche Satzgrundlegung mit gaussianbasierter kontrastiver Vorschlagslernen

Die zeitliche Sätze-Verankerung (temporal sentence grounding) zielt darauf ab, den auffälligsten Zeitraum in ungeschnittenen Videos zu detektieren, der einer natürlichsprachlichen Abfrage entspricht. Da die Markierung zeitlicher Grenzen arbeitsintensiv und subjektiv ist, erhalten schwach beschriftete Ansätze in letzter Zeit zunehmend Aufmerksamkeit. Die meisten bestehenden schwach beschrifteten Methoden generieren Vorschläge mittels gleitender Fenster, die inhaltsunabhängig sind und eine geringe Qualität aufweisen. Zudem trainieren sie das Modell, positive visuell-sprachliche Paare von zufällig aus anderen Videos gesammelten negativen Paaren zu unterscheiden, wodurch die hoch verwirrenden Videosegmente innerhalb desselben Videos ignoriert werden. In diesem Artikel stellen wir Contrastive Proposal Learning (CPL) vor, um diese Einschränkungen zu überwinden. Konkret verwenden wir mehrere lernbare Gauss-Funktionen, um sowohl positive als auch negative Vorschläge innerhalb desselben Videos zu generieren, die die mehreren Ereignisse in einem langen Video charakterisieren können. Anschließend schlagen wir eine steuerbare Strategie zur Gewinnung von einfachen bis schwierigen negativen Vorschlägen innerhalb desselben Videos vor, die die Modelloptimierung erleichtert und CPL ermöglicht, hoch verwirrende Szenen zu unterscheiden. Experimente zeigen, dass unsere Methode auf den Datensätzen Charades-STA und ActivityNet Captions eine state-of-the-art-Leistung erzielt. Der Quellcode und die Modelle sind unter https://github.com/minghangz/cpl verfügbar.