2ヶ月前
FONTNET: デバイス上のフォント理解と予測パイプライン
S, Rakshith ; Khurana, Rishabh ; Agarwal, Vibhav ; Vachhani, Jayesh Rajkumar ; Bhanodai, Guggilla

要約
フォントは最も基本的かつ核心的なデザイン概念の一つです。テキストカスタマイゼーションなど、フォントの深い理解が役立つ多くのユースケースがあります。テキストカスタマイゼーションでは、画像内のテキストを変更しつつ、スタイル、色、サイズなどのフォント属性を維持することができます。現在、テキスト認識ソリューションは行間や段落間に基づいて認識されたテキストをグループ化できますが、フォント属性が既知の場合には、文脈に基づいて複数のテキストブロックを意味のある形で結合することが可能です。本論文では、以下の2つのエンジンを提案します:1) フォント検出エンジン(Font Detection Engine):画像内のテキストのフォントスタイル、色、サイズ属性を識別するものと 2) フォント予測エンジン(Font Prediction Engine):クエリフォントに対して類似したフォントを予測するものです。本論文の主な貢献は三つあります:第一に、画像内のテキストのフォントスタイルを識別するための新しいCNNアーキテクチャを開発しました。第二に、与えられたクエリフォントに対して類似したフォントを予測するための新しいアルゴリズムを設計しました。第三に、プライバシーを確保しリアルタイムアプリケーション(例:インスタントメッセージング)での遅延時間を改善するために、全体のエンジンをデバイス上に最適化して展開しました。両方のエンジンにおいて、最悪の場合でもデバイス上の推論時間が30ミリ秒以内であり、モデルサイズは4.5MBとなっています。