HyperAIHyperAI
il y a 2 mois

FONTNET : Pipeline de Compréhension et de Prédiction des Polices sur Appareil

S, Rakshith ; Khurana, Rishabh ; Agarwal, Vibhav ; Vachhani, Jayesh Rajkumar ; Bhanodai, Guggilla
FONTNET : Pipeline de Compréhension et de Prédiction des Polices sur Appareil
Résumé

Les polices de caractères sont l'un des concepts de conception les plus fondamentaux et essentiels. De nombreux cas d'utilisation peuvent bénéficier d'une compréhension approfondie des polices de caractères, tels que la personnalisation du texte, qui permet de modifier le texte dans une image tout en conservant les attributs de police comme le style, la couleur et la taille. Actuellement, les solutions de reconnaissance de texte peuvent regrouper le texte reconnu en fonction des retours à la ligne ou des sauts de paragraphe ; si les attributs de police sont connus, plusieurs blocs de texte peuvent être combinés de manière significative en fonction du contexte.Dans cet article, nous proposons deux moteurs : un Moteur de Détection des Polices (Font Detection Engine), qui identifie les attributs de style, couleur et taille des textes présents dans une image, et un Moteur de Prédiction des Polices (Font Prediction Engine), qui prédit des polices similaires pour une police donnée en requête. Les contributions principales de cet article sont triples : premièrement, nous avons développé une nouvelle architecture CNN pour identifier le style des polices de caractères dans les images ; deuxièmement, nous avons conçu un nouvel algorithme pour prédire des polices similaires à partir d'une police donnée en requête ; troisièmement, nous avons optimisé et déployé l'ensemble du moteur sur appareil (On-Device), ce qui garantit la confidentialité et améliore la latence dans les applications temps réel telles que la messagerie instantanée. Nous obtenons un temps d'inférence sur appareil (On-Device) maximal de 30 ms et une taille de modèle de 4,5 Mo pour les deux moteurs.