Objektabruf mit integraler Max-Pooling von CNN-Aktivierungen

Kürzlich wurde gezeigt, dass Bildrepräsentationen, die auf Convolutional Neural Networks (CNNs) basieren, effektive Deskriptoren für die Bildsuche bereitstellen und vor-CNN-Features als Kurzvektordarstellungen übertrumpfen. Dennoch sind solche Modelle nicht mit geometrie-bewussten Re-Ranking-Methoden kompatibel und werden bei bestimmten Objekterkennungsbenchmarktests noch von traditionellen Bildsuchesystemen übertroffen, die auf präziser Deskriptorabstimmung, geometrischem Re-Ranking oder Abfrageerweiterung basieren. In dieser Arbeit werden beide Retrieval-Stufen, nämlich die anfängliche Suche und das Re-Ranking, unter Verwendung der gleichen aus dem CNN abgeleiteten primitiven Informationen neu betrachtet. Wir erstellen kompakte Merkmalsvektoren, die mehrere Bildbereiche kodieren, ohne dass mehrere Eingaben ins Netzwerk eingespeist werden müssen. Darüber hinaus erweitern wir Integralbilder zur Handhabung des Max-Poolings in den Aktivierungen der Faltungsschichten, was uns ermöglicht, übereinstimmende Objekte effizient zu lokalisieren. Der resultierende Begrenzungsrahmen wird schließlich für das Bildre-Ranking verwendet. Dadurch verbessert diese Arbeit den bestehenden CNN-basierten Erkennungsprozess erheblich: Wir melden zum ersten Mal Ergebnisse, die sich mit traditionellen Methoden bei den anspruchsvollen Oxford5k- und Paris6k-Datensätzen messen können.