17日前

AnyText:多言語対応の視覚的テキスト生成および編集

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
AnyText:多言語対応の視覚的テキスト生成および編集
要約

最近、拡散モデル(Diffusion model)を基盤とするテキストから画像への生成技術は、著しい進展を遂げています。現在の画像合成技術は非常に高度であり、高忠実度の画像を生成する能力を備えていますが、生成された画像のテキスト領域に注目すると、その正確性や一貫性に課題が残っている場合があります。この問題に対処するため、本研究では、画像内のテキストを正確かつ一貫性を持ってレンダリングすることに特化した、多言語対応の視覚的テキスト生成・編集モデル「AnyText」を提案します。AnyTextは、拡散パイプラインを採用しており、主に2つのモジュールから構成されています。1つは補助的な潜在変数モジュールで、テキストのグリフ(文字形状)、位置情報、マスクされた画像を入力として、テキスト生成または編集用の潜在特徴を生成します。もう1つはテキスト埋め込みモジュールで、OCRモデルを用いて筆画データをエンコーディングし、トークナイザーから得られる画像キャプションの埋め込みと融合させることで、背景と自然に調和するテキストを生成します。さらに、書体の正確性を向上させるために、テキスト制御拡散損失(text-control diffusion loss)およびテキスト感知損失(text perceptual loss)を用いた学習手法を導入しました。AnyTextは、複数の言語で文字を生成できる点が特徴であり、本研究が多言語視覚的テキスト生成に関する初めての取り組みであると認識しています。また、AnyTextは、コミュニティで広く利用されている既存の拡散モデルに容易に統合可能であり、正確なテキストのレンダリングや編集を実現できます。広範な評価実験の結果、本手法は他のすべての手法を大きく上回る性能を示しました。さらに、本研究では、300万件の画像-テキストペアを含み、複数言語でOCRアノテーションが付与された大規模な多言語テキスト画像データセット「AnyWord-3M」を公開しました。このデータセットを基盤として、視覚的テキスト生成の正確性と品質を評価するためのベンチマーク「AnyText-benchmark」を提案しました。本プロジェクトは、https://github.com/tyxsspa/AnyText にてオープンソース化され、テキスト生成技術のさらなる発展と普及を促進することを目的としています。