Kombination mehrerer globaler Deskriptoren für die Bildsuche

Neuere Studien im Bereich der Bildsuche haben gezeigt, dass das Ensemble verschiedener Modelle und die Kombination mehrerer globaler Deskriptoren zu einer Leistungssteigerung führen. Allerdings ist das Training verschiedener Modelle für ein Ensemble nicht nur schwierig, sondern auch ineffizient hinsichtlich Zeit und Speicher. In dieser Arbeit schlagen wir einen neuen Rahmen vor, der mehrere globale Deskriptoren nutzt, um einen EnSEMBLE-Effekt zu erzielen, während er in einem End-to-End-Verfahren trainiert werden kann. Der vorgeschlagene Rahmen ist flexibel und erweiterbar durch den globalen Deskriptor, das CNN-Rückgrat (CNN backbone), den Verlust (loss) und den Datensatz (dataset). Darüber hinaus untersuchen wir die Effektivität der Kombination mehrerer globaler Deskriptoren mit quantitativer und qualitativer Analyse. Unsere umfangreichen Experimente zeigen, dass der kombinierte Deskriptor einen einzelnen globalen Deskriptor übertrifft, da er verschiedene Arten von Merkmals Eigenschaften nutzen kann. Bei der Benchmark-Bewertung erreicht der vorgeschlagene Rahmen den aktuellen Stand der Technik auf den Datensätzen CARS196, CUB200-2011, In-shop Clothes und Stanford Online Products in Aufgaben der Bildsuche. Unsere Modellimplementierungen und vortrainierten Modelle sind öffentlich zugänglich.