Zeit Zählen: Klassenunabhängiges Video-Wiederholungszählen in der Wildbahn

Wir präsentieren einen Ansatz zur Schätzung des Intervalls, mit dem eine Aktion in einem Video wiederholt wird. Der Kern dieses Ansatzes besteht darin, das Intervallvorhersagemodul dazu zu zwingen, zeitliche Selbstähnlichkeit als Zwischenrepräsentation zu verwenden, die es ermöglicht, auf unbekannte Wiederholungen in Videos im Freien zu verallgemeinern. Wir trainieren dieses Modell, genannt RepNet, mit einem synthetischen Datensatz, der aus einer großen Sammlung von nicht annotierten Videos generiert wird, indem kurze Clips unterschiedlicher Längen ausgewählt und mit verschiedenen Intervallen und Anzahlen wiederholt werden. Diese Kombination aus synthetischen Daten und einem leistungsfähigen aber eingeschränkten Modell ermöglicht es uns, die Intervalle unabhängig von der Klasse vorherzusagen. Unser Modell übertrifft die bisherige Standarte deutlich in den Leistungsbenchmarks für Periodizität (PerTube) und Wiederholungszählung (QUVA). Zudem haben wir einen neuen anspruchsvollen Datensatz namens Countix gesammelt (ungefähr 90-mal größer als bestehende Datensätze), der die Herausforderungen der Wiederholungszählung in realen Videos erfasst. Projektwebseite: https://sites.google.com/view/repnet .