Erkennung menschlicher Aktionen über Datensätze hinweg durch vordergrundgewichtete Histogrammzerlegung

Diese Arbeit befasst sich mit dem Problem der Erkennung menschlicher Aktionen, wenn das Training und die Testphase auf unterschiedlichen Datensätzen erfolgen und die Testvideos weder während des Trainings gelabelt noch verfügbar sind. In diesem Szenario sind Techniken zur gemeinsamen Lernung eines Wortschatzes oder Domain-Transfer-Methoden nicht anwendbar. Zunächst untersuchen wir die Ursachen für eine schlechte Klassifikatorleistung bei der Anwendung auf neue Datensätze und quantifizieren den Einfluss von Szenenhintergründen auf die Aktionsspezifikationen und die Erkennung. Unter Verwendung ausschließlich von Hintergrundmerkmalen und der Aufteilung des Gist-Merkmalsraums zeigen wir, dass die Hintergründe in jüngsten Datensätzen erheblich diskriminierend sind und zur Klassifikation von Aktionen mit annehmbarer Genauigkeit genutzt werden können. Anschließend schlagen wir ein neues Verfahren vor, um eine Maßzahl für die Vertrauenswürdigkeit jedes Pixels eines Videos im Hinblick auf seine Zugehörigkeit zu einem Vordergrundbereich zu ermitteln, wobei Bewegung, Erscheinungsbild und Aufmerksamkeit in einem 3D-Markov-Randfeld (3D MRF)-Framework kombiniert werden. Darüber hinaus stellen wir mehrere Ansätze vor, um die Vordergrundvertrauenswerte auszunutzen: zur Verbesserung des Bag-of-Words-Wortschatzes, zur Optimierung der Histogrammdarstellung eines Videos sowie zur Einführung einer neuen Histogramm-Zerlegungs-Darstellung und eines entsprechenden Kernels. Wir nutzen diese Vordergrundvertrauenswerte zur Aktionserkennung, wobei die Modelle auf einem Datensatz trainiert und auf einem anderen getestet werden. Umfassende Experimente an mehreren Datensätzen zeigen, dass die vorgeschlagenen Methoden die Genauigkeit der Kreuz-Datensatz-Erkennung im Vergleich zu Basisverfahren deutlich verbessern.