HyperAIHyperAI
vor 18 Tagen

Erweiterbare hierarchische Methode zur Erkennung interaktiver Aktionen für die Videoverstehens

{Junho Jin, Jinyoung Moon, Yongjin Kwon, Kyuchang Kang, Kyoung Park, Jongyoul Park}
Abstract

Für die Videoverstehensaufgabe, also die Analyse von „Wer tut was“ in einem Video, sind Aktionen zusammen mit Objekten die zentralen Elemente. Die meisten bisherigen Arbeiten zu Aktionen haben das Erkennungsproblem für gut zugeschnittene Videos behandelt und sich auf die Verbesserung der Klassifizierungsleistung konzentriert. Allerdings ist zur Erfassung realistischer Szenarien, in denen Aktionen räumlich und zeitlich überlappend auftreten, die Aktionserkennung mit Lokalisierung sowie Erkennung erforderlich. Zudem haben die meisten Studien die Erweiterbarkeit für neu hinzugefügte Aktionen, die bereits im Training vorkamen, bisher nicht berücksichtigt. In diesem Beitrag wird daher ein erweiterbares hierarchisches Verfahren zur Erkennung generischer Aktionen vorgestellt, das sowohl Objektbewegungen als auch räumliche Beziehungen zwischen zwei Objekten integriert, sowie vererbte Aktionen, die durch eine Ontologie und regelbasierte Methodik anhand der zugehörigen Objekte bestimmt werden. Die hierarchische Struktur des Ansatzes ermöglicht die Erkennung beliebiger interaktiver Aktionen basierend auf den räumlichen Beziehungen zwischen zwei Objekten. Durch die Nutzung von Objektinformationen erreicht das Verfahren eine F-Maß-Genauigkeit von 90,27 %. Darüber hinaus wird die Erweiterbarkeit des Verfahrens für neue Aktionen, die in Videos aus einem anderen Video-Domain auftreten, als die des verwendeten Datensatzes, beschrieben.