Deep Radial Embedding für visuelles Sequenzlernen

Connectionist Temporal Classification (CTC) ist eine gängige Zielfunktion im Bereich der Sequenzerkennung, die unsegmentierte Sequenzdaten durch eine iterative Ausrichtung von Sequenz und ihrer entsprechenden Beschriftung überwacht. Die leere Klasse (blank class) von CTC spielt dabei eine entscheidende Rolle im Ausrichtungsprozess und wird oft für das „peaky“-Verhalten von CTC verantwortlich gemacht. In dieser Studie stellen wir eine neue Zielfunktion namens RadialCTC vor, die die Sequenzmerkmale auf einer Hypersphäre einschränkt, während sie den iterativen Ausrichtungsmechanismus von CTC beibehält. Die gelernten Merkmale jeder nicht-leeren Klasse sind entlang eines radialen Bogens vom Zentrum der leeren Klasse verteilt, was eine klare geometrische Interpretation ermöglicht und den Ausrichtungsprozess effizienter macht. Zudem kann das „peaky“-Verhalten von RadialCTC durch eine einfache Modifikation des Logits der leeren Klasse gesteuert werden. Experimentelle Ergebnisse zur Erkennung und Lokalisierung belegen die Wirksamkeit von RadialCTC in zwei Anwendungen der Sequenzerkennung.