HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Großskalige visuelle Schriftartenerkennung

{Eli Shechtman Tony X. Han Aseem Agarwala Jianchao Yang Hailin Jin Guang Chen Jonathan Brandt}

Großskalige visuelle Schriftartenerkennung

Abstract

Diese Arbeit behandelt das Problem der großskaligen visuellen Schriftarterkennung (Visual Font Recognition, VFR), das darauf abzielt, automatisch die Schriftart, Schriftstärke und Neigung des Textes in einem Bild oder Foto zu identifizieren, ohne jegliches Wissen über den inhaltlichen Inhalt zu benötigen. Obwohl die visuelle Schriftarterkennung zahlreiche praktische Anwendungen besitzt, wurde sie in der Computer Vision-Community bisher weitgehend vernachlässigt. Um das VFR-Problem anzugehen, erstellen wir eine großskalige Datensammlung mit 2.420 Schriftartklassen, die die Skala der meisten Bildkategorisierungsdatensätze in der Computer Vision deutlich übertrifft. Da die Schriftarterkennung intrinsisch dynamisch und offen ist – d. h., im Laufe der Zeit ständig neue Klassen und Daten für bestehende Kategorien hinzugefügt werden – schlagen wir eine skalierbare Lösung basierend auf dem Nearest-Class-Mean-Klassifikator (NCM) vor. Der Kernalgorithmus beruht auf lokaler Merkmalembedding, lokaler Merkmalsmetrik-Learning und Max-Margin-Vorlagen-Auswahl, was ihn naturgemäß gut für den Einsatz mit NCM und somit für solche offenen Klassifikationsprobleme geeignet macht. Der neue Algorithmus kann mit geringem zusätzlichen Aufwand auf neue Klassen und neue Daten generalisieren. Umfangreiche Experimente zeigen, dass unser Ansatz auf synthetischen Testbildern äußerst effektiv ist und auf realen Welt-Bildern vielversprechende Ergebnisse erzielt.

Benchmarks

BenchmarkMethodikMetriken
font-recognition-on-vfr-2420LFE (FS, template model size 2048)
Top 1 Accuracy: 72.5
Top 10 Accuracy: 96.87
Top 5 Accuracy: 93.45
font-recognition-on-vfr-447LFE (FS, template model size 2048)
Top 1 Accuracy: 91.35
Top 10 Accuracy: 99.62
Top 5 Accuracy: 98.80
font-recognition-on-vfr-wildLFE (FS, template model size 2048)
Top 1 Accuracy: 52.61
Top 10 Accuracy: 62.14
Top 5 Accuracy: 58.4

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Großskalige visuelle Schriftartenerkennung | Forschungsarbeiten | HyperAI