FineParser: Ein feingranularer räumlich-zeitlicher Aktionsparser für die bewegungsbasierte Aktionsqualitätseinschätzung im Menschenzentrum

Bestehende Methoden zur Bewertung der Aktionen (Action Quality Assessment, AQA) lernen hauptsächlich tiefgreifende Darstellungen auf Videoebene, um verschiedene Aktionen zu bewerten. Aufgrund des Mangels an einer feingranularen Verständnis von Aktionen in Videos leiden sie stark unter geringer Glaubwürdigkeit und Interpretierbarkeit, wodurch sie für strenge Anwendungen wie Olympische Kunstspringwettbewerbe unzureichend sind. Wir argumentieren, dass ein feingranulares Verständnis von Aktionen erfordert, dass das Modell die Aktionen sowohl zeitlich als auch räumlich wahrnimmt und analysiert, was auch der Schlüssel zur Glaubwürdigkeit und Interpretierbarkeit der AQA-Technik ist. Basierend auf diesem Einblick schlagen wir einen neuen feingranularen räumlich-zeitlichen Aktionsparser vor, den wir FineParser nennen. Er lernt menschenzentrierte Vordergrundaktionendarstellungen, indem er sich auf die Zielaktionsbereiche innerhalb jedes Frames konzentriert und ihre feingranularen Ausrichtungen in Zeit und Raum ausnutzt, um den Einfluss ungültiger Hintergründe während der Bewertung zu minimieren. Zudem erstellen wir feingranulare Annotationen von menschenzentrierten Vordergrundaktionsmasken für den FineDiving-Datensatz, der als FineDiving-HM bezeichnet wird. Durch verfeinerte Annotationen verschiedener Zielaktionsabläufe kann FineDiving-HM die Entwicklung realweltlicher AQA-Systeme fördern. Mittels umfangreicher Experimente zeigen wir die Effektivität von FineParser nach, das nicht nur die besten bisher bekannten Methoden übertrifft, sondern auch mehr Aufgaben im Bereich des feingranularen Aktionsverstehens unterstützt. Daten und Code sind unter \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024} verfügbar.