Tiefes Okklusionsreasoning für die Erkennung von mehreren Zielen mit mehreren Kameras

Die Erkennung von Personen in einzelnen 2D-Bildern hat sich in den letzten Jahren erheblich verbessert. Allerdings ist nur wenig von diesem Fortschritt in die Algorithmen zur Mehrkameral- und Mehrpersonenverfolgung übergegangen, deren Leistung bei sehr dichten Szenen stark nachlässt. In dieser Arbeit stellen wir eine neue Architektur vor, die Faltungsneuronale Netze (Convolutional Neural Nets) und bedingte Markow-Netze (Conditional Random Fields) kombiniert, um diese Ambiguitäten explizit zu modellieren. Ein wesentlicher Bestandteil unserer Methode sind hochwertige CRF-Terme, die potenzielle Verdeckungen modellieren und unserem Ansatz Robustheit verleihen, selbst wenn viele Personen anwesend sind. Unser Modell wird end-to-end trainiert, und wir zeigen, dass es in anspruchsvollen Szenen mehrere Stand-of-the-Art-Algorithmen übertrifft.