Ein hierarchisches Kontextmodell für die Ereigniserkennung in Überwachungsvideos

Aufgrund erheblicher Herausforderungen wie erheblicher intra-klas-sischer Variationen und geringer Bildauflösung nimmt kontextuelle Information eine zunehmend wichtigere Rolle für die genaue und robuste Ereigniserkennung in Überwachungsvideos ein. Die kontextuelle Information kann allgemein in kontextuelle Information auf der Merkmals-ebene, der semantischen Ebene und der Vorwissen-Ebene unterteilt werden. Diese drei Ebenen des Kontexts liefern entscheidende bottom-up-, mittlere und top-down-Informationen, die der Ereigniserkennung selbst zugutekommen. Im Gegensatz zu bestehenden Arbeiten, die den Kontext in der Regel lediglich auf einer der drei Ebenen integrieren, schlagen wir ein hierarchisches Kontextmodell vor, das gleichzeitig Kontextinformationen auf allen drei Ebenen ausnutzt und diese systematisch in die Ereigniserkennung einbezieht. Um die durch die Modellhierarchie verursachten Lern- und Inferenzherausforderungen zu bewältigen, entwickeln wir vollständige Lern- und Inferenzalgorithmen für das vorgeschlagene hierarchische Kontextmodell basierend auf der Variational-Bayes-Methode. Experimente an den VIRAT 1.0- und 2.0-Grunddatensätzen belegen die Wirksamkeit des vorgeschlagenen hierarchischen Kontextmodells zur Verbesserung der Ereigniserkennungsleistung, selbst unter schweren Bedingungen wie großer intra-klas-sischer Variation und geringer Bildauflösung.