Temporal Sentence Grounding
Temporal Sentence Grounding (TSG) ist eine Unterabgabe im Bereich der Computer Vision, die darauf abzielt, spezifische Momente in ungeschnittenen Videos durch gegebene natürlichsprachliche Abfragen zu lokalisieren. Diese Aufgabe nutzt Überwachungsinformationen auf verschiedenen Ebenen, darunter schwache Überwachung (eine Menge von videoübergreifenden Aktionenkategorien), semi-schwache Überwachung (eine Menge von videoübergreifenden Aktionenkategorien und einige zeitgestempelte Aktionenannotationen) und vollständige Überwachung (alle Aktionenkategorien und Zeitintervalle, die in dem ungeschnittenen Video annotiert sind), um die Lokalisierungsgenauigkeit und die Generalisierungsfähigkeiten zu verbessern. TSG hat erheblichen Anwendungswert für die Videorecherche, das Content-Verständnis und die Mensch-Computer-Interaktion.