Selbstüberwachter Video-zentrierter Transformer für die Video-Gesichts-Clustering

Diese Arbeit präsentiert eine neuartige Methode zur Gesichtsclustering in Videos mittels eines videozentrierten Transformers. Bisherige Ansätze verwendeten häufig contrastive Learning, um framebasierte Darstellungen zu lernen, und setzten durchschnittliche Pooling-Operationen ein, um die Merkmale entlang der zeitlichen Dimension zu aggregieren. Dieser Ansatz kann die komplexen Dynamiken in Videos möglicherweise nicht vollständig erfassen. Zudem haben, trotz der jüngsten Fortschritte im Bereich des videobasierten contrastiven Lernens, nur wenige Arbeiten versucht, eine selbstüberwachte, clustergünstige Gesichtsdarstellung zu lernen, die speziell der Aufgabe des Gesichtsclustering in Videos zugutekommt. Um diese Einschränkungen zu überwinden, nutzt unsere Methode einen Transformer, um direkt videozentrierte Darstellungen zu lernen, die die zeitlich veränderlichen Eigenschaften von Gesichtern in Videos besser widerspiegeln. Gleichzeitig schlagen wir einen videozentrierten, selbstüberwachten Rahmen zur Trainingsdurchführung des Transformer-Modells vor. Darüber hinaus untersuchen wir das Gesichtsclustering in egozentrischen Videos – einem schnell wachsenden Forschungsfeld, das bisher in der Literatur zum Gesichtsclustering noch nicht untersucht wurde. Hierzu präsentieren und veröffentlichen wir erstmals eine große, umfassende Datensammlung für egozentrische Video-Gesichtsclustering namens EasyCom-Clustering. Wir evaluieren unsere vorgeschlagene Methode sowohl auf dem weit verbreiteten Big Bang Theory (BBT)-Datensatz als auch auf dem neuen EasyCom-Clustering-Datensatz. Die Ergebnisse zeigen, dass die Leistung unseres videozentrierten Transformers sowohl auf beiden Benchmarks alle vorherigen State-of-the-Art-Methoden übertrifft und eine selbst-attentive Verständnisfähigkeit für Gesichts-Videos demonstriert.