Tiefe Tripletten-Quantisierung

Tiefes Hashing etabliert eine effiziente und effektive Bildsuche durch das End-to-End-Lernen von tiefen Repräsentationen und Hashcodes aus Ähnlichkeitsdaten. Wir präsentieren eine kompakte Codierungslösung, wobei der Fokus auf einem Ansatz des tiefen Lernens zur Quantisierung liegt, der überlegenere Leistungen im Vergleich zu Hashing-Lösungen für die Ähnlichkeitssuche gezeigt hat. Wir schlagen Deep Triplet Quantization (DTQ) vor, einen neuen Ansatz zum Lernen tiefer Quantisierungsmodelle aus Ähnlichkeits-Tripeln. Um ein effektiveres Tripeltraining zu ermöglichen, entwickeln wir eine neue Tripelauswahlmethode, Group Hard, die in jeder Bilddatengruppe zufällig schwierige Tripel auswählt. Um kompakte binäre Codes zu generieren, wenden wir während des Tripeltrainings eine Tripelquantisierung mit schwacher Orthogonalität an. Der Quantisierungsverlust reduziert die Redundanz des Codebooks und verbessert die Quantifizierbarkeit der tiefen Repräsentationen durch Backpropagation. Ausführliche Experimente zeigen, dass DTQ hochwertige und kompakte binäre Codes erzeugen kann, was zu einer Spitzenleistung bei der Bildsuche auf drei Benchmark-Datensätzen, NUS-WIDE, CIFAR-10 und MS-COCO, führt.