HyperAIHyperAI
vor 2 Monaten

Pretext-Contrastives Lernen: Auf dem Weg zu guten Praktiken im selbstüberwachten Video-Darstellungslernen

Li Tao; Xueting Wang; Toshihiko Yamasaki
Pretext-Contrastives Lernen: Auf dem Weg zu guten Praktiken im selbstüberwachten Video-Darstellungslernen
Abstract

Kürzlich wurden in der selbstüberwachten Video-Feature-Lernung nacheinander Prätextaufgaben-basierte Methoden vorgeschlagen. Gleichzeitig erzielen Kontrastlernmethoden ebenfalls gute Ergebnisse. In der Regel können neue Methoden, wie behauptet wird, vorherige übertreffen, indem sie "bessere" zeitliche Informationen erfassen. Allerdings gibt es Unterschiede in den Einstellungen zwischen ihnen, und es ist schwierig zu beurteilen, welche besser ist. Ein Vergleich wäre viel überzeugender, wenn diese Methoden so nahe wie möglich an ihre Leistungsgrenzen herangekommen wären. In dieser Arbeit beginnen wir mit einer Prätextaufgaben-Baseline und untersuchen, wie weit sie durch die Kombination mit Kontrastlernen, Datenvorverarbeitung und Datenverstärkung gehen kann. Durch umfangreiche Experimente wurde eine geeignete Einstellung gefunden, mit der enorme Verbesserungen gegenüber den Baselines erzielt werden können. Dies deutet darauf hin, dass ein gemeinsames Optimierungsframework sowohl die Prätextaufgabe als auch das Kontrastlernen verbessern kann. Wir bezeichnen dieses gemeinsame Optimierungsframework als Prätext-Kontrastlernen (Pretext-Contrastive Learning, PCL). Die beiden anderen Prätextaufgaben-Baselines werden verwendet, um die Effektivität von PCL zu bestätigen. Und wir können leicht die aktuellen Stand-of-the-Art-Methoden im selben Trainingsverfahren übertreffen, was die Effektivität und Allgemeingültigkeit unseres Vorschlags zeigt. Es ist einfach, PCL als Standardtrainingsstrategie zu betrachten und sie auf viele andere Arbeiten im Bereich der selbstüberwachten Video-Feature-Lernung anzuwenden.

Pretext-Contrastives Lernen: Auf dem Weg zu guten Praktiken im selbstüberwachten Video-Darstellungslernen | Neueste Forschungsarbeiten | HyperAI