Vermeidung lokaler Fallstricke bei der Vektorquantisierung über optimale Transporttheorie

Vektorquantisierte Netzwerke (VQNs) haben bei einer Vielzahl von Aufgaben bemerkenswerte Leistungen erbracht, sind jedoch anfällig für Trainingsinstabilitäten, was den Trainingsprozess erschwert, da Techniken wie fein abgestimmte Initialisierung und Modell-Distillation erforderlich sind. In dieser Studie identifizieren wir das Problem lokaler Minima als die primäre Ursache dieser Instabilität. Um diesem Problem entgegenzuwirken, integrieren wir eine Methode basierend auf optimaler Transporttheorie anstelle der herkömmlichen Nachbarschaftssuche, um eine globalere Informiertheit bei der Zuordnung zu erreichen. Wir stellen OptVQ vor, eine neuartige Vektorquantisierungsmethode, die den Sinkhorn-Algorithmus nutzt, um das Problem des optimalen Transports zu optimieren, wodurch die Stabilität und Effizienz des Trainingsprozesses erheblich verbessert werden. Um den Einfluss unterschiedlicher Datenausprägungen auf den Sinkhorn-Algorithmus zu verringern, implementieren wir eine einfache, jedoch wirksame Normalisierungsstrategie. Unsere umfassenden Experimente im Bereich der Bildrekonstruktion zeigen, dass OptVQ eine Nutzung der Codebook von 100 % erreicht und die derzeitigen State-of-the-Art-VQNs in Bezug auf die Rekonstruktionsqualität übertrifft.