Die Nutzung von Triplet-Loss für die unüberwachte Aktionensegmentierung

In dieser Arbeit schlagen wir ein neuartiges, vollständig unüberwachtes Framework vor, das Aktionenrepräsentationen aus einem einzelnen Eingabevideo lernt, die für die Aufgabeder Aktionensegmentierung geeignet sind, ohne dass irgendeine Trainingsdaten erforderlich wären. Unsere Methode basiert auf einem tiefen Metrik-Lernansatz, der in einem flachen Netzwerk verankert ist und eine Triplettenverlustfunktion verwendet, die auf Similaritätsverteilungen operiert. Zudem nutzen wir eine neuartige Triplettenauswahlstrategie, die zeitliche und semantische Vorinformationen effektiv modelliert, um Aktionen im neuen Repräsentationsraum zu entdecken. Unter diesen Bedingungen gelingt es uns, zeitliche Grenzen in den gelernten Aktionenrepräsentationen mit höherer Qualität als bei bestehenden unüberwachten Ansätzen wiederherzustellen. Die vorgeschlagene Methode wird anhand zweier weit verbreiteter Benchmark-Datensätze für die Aktionensegmentierung evaluiert und erzielt durch Anwendung eines generischen Clustering-Algorithmus auf die gelernten Repräsentationen wettbewerbsfähige Leistungen.