Ist die schwach beschriftete Aktionssegmentierung bereit für die Mensch-Roboter-Interaktion? Nein, lassen Sie uns sie mit Action-union-Learning verbessern
Die Aktionssegmentierung spielt eine entscheidende Rolle dabei, Roboter in die Lage zu versetzen, menschliche Aktivitäten automatisch zu verstehen. Zur Schulung von Aktionserkennungsmodellen ist die Annotation von Aktionslabels für alle Frames kostspielig, während die Annotierung von Zeitstempel-Labels für eine schwache Supervision kosteneffizient ist. Allerdings nutzen bestehende Methoden die Zeitstempel-Labels möglicherweise nicht vollständig, was zu unzureichender Leistung führt. Um dieses Problem zu mindern, haben wir in unserem Trainingsstadium ein neuartiges Lernmuster vorgeschlagen, das die Wahrscheinlichkeit der Vereinigung von Aktionslabels für benachbarte Zeitstempel für unlabeled Frames maximiert. In der Inferenzphase bieten wir eine neue Nachbearbeitungslösung an, um aus weichen Vorhersagen bessere, hart zugewiesene Aktionsklassen zu generieren. Wichtig ist, dass unsere Methoden modellunabhängig sind und nahtlos in bestehende Frameworks integriert werden können. Auf drei gängigen Datensätzen zur Aktionssegmentierung übertrifft unsere Methode die bisherigen Ansätze mit Zeitstempel-Supervision und erreicht neue SOTA-Leistungen (state-of-the-art). Zudem benötigt unsere Methode weniger als 1 % der vollständig beschrifteten Labels, um vergleichbare oder sogar bessere Ergebnisse zu erzielen.