Mehrfachansichtsbasierte Erkennung von Personen in großen Szenen durch überwachte Ansichtsgewichtung

Neuere Methoden zur mehrsichtigen Personenerkennung (MVD) auf Basis des tiefen Lernens haben auf bestehenden Datensätzen vielversprechende Ergebnisse gezeigt. Aktuelle Ansätze werden jedoch hauptsächlich anhand kleiner, einzelner Szenen mit einer begrenzten Anzahl von mehrsichtigen Bildern und festen Kameraperspektiven trainiert und evaluiert. Als Folge davon sind diese Methoden möglicherweise nicht praktikabel für die Erkennung von Personen in größeren, komplexeren Szenen mit starken Verdeckungen und Kamerakalibrierungsfehlern. Dieser Artikel konzentriert sich darauf, die mehrsichtige Personenerkennung durch die Entwicklung eines überwachten Ansatzes zur sichtspezifischen Beitragsgewichtung zu verbessern, der die Informationen aus mehreren Kameras unter großen Szenen besser fusioniert. Darüber hinaus wird ein großer synthetischer Datensatz verwendet, um die Generalisierungsfähigkeit des Modells zu erhöhen und eine praktischere Evaluierung und Vergleichbarkeit zu ermöglichen. Die Leistung des Modells in neuen Test-Szenarien wird durch eine einfache Domänenanpassungstechnik weiter verbessert. Experimentelle Ergebnisse zeigen die Effektivität unseres Ansatzes bei der Erreichung vielversprechender cross-scene mehrsichtiger Personenerkennungsleistungen. Siehe Code hier: https://vcc.tech/research/2024/MVD.