HyperAIHyperAI
vor 18 Tagen

Großskalige visuelle Schriftartenerkennung

{Eli Shechtman, Tony X. Han, Aseem Agarwala, Jianchao Yang, Hailin Jin, Guang Chen, Jonathan Brandt}
Großskalige visuelle Schriftartenerkennung
Abstract

Diese Arbeit behandelt das Problem der großskaligen visuellen Schriftarterkennung (Visual Font Recognition, VFR), das darauf abzielt, automatisch die Schriftart, Schriftstärke und Neigung des Textes in einem Bild oder Foto zu identifizieren, ohne jegliches Wissen über den inhaltlichen Inhalt zu benötigen. Obwohl die visuelle Schriftarterkennung zahlreiche praktische Anwendungen besitzt, wurde sie in der Computer Vision-Community bisher weitgehend vernachlässigt. Um das VFR-Problem anzugehen, erstellen wir eine großskalige Datensammlung mit 2.420 Schriftartklassen, die die Skala der meisten Bildkategorisierungsdatensätze in der Computer Vision deutlich übertrifft. Da die Schriftarterkennung intrinsisch dynamisch und offen ist – d. h., im Laufe der Zeit ständig neue Klassen und Daten für bestehende Kategorien hinzugefügt werden – schlagen wir eine skalierbare Lösung basierend auf dem Nearest-Class-Mean-Klassifikator (NCM) vor. Der Kernalgorithmus beruht auf lokaler Merkmalembedding, lokaler Merkmalsmetrik-Learning und Max-Margin-Vorlagen-Auswahl, was ihn naturgemäß gut für den Einsatz mit NCM und somit für solche offenen Klassifikationsprobleme geeignet macht. Der neue Algorithmus kann mit geringem zusätzlichen Aufwand auf neue Klassen und neue Daten generalisieren. Umfangreiche Experimente zeigen, dass unser Ansatz auf synthetischen Testbildern äußerst effektiv ist und auf realen Welt-Bildern vielversprechende Ergebnisse erzielt.