2ヶ月前

野生環境でのテキスト編集

Liang Wu; Chengquan Zhang; Jiaming Liu; Junyu Han; Jingtuo Liu; Errui Ding; Xiang Bai
野生環境でのテキスト編集
要約

本論文では、自然画像中のテキスト編集に焦点を当てます。このタスクの目的は、ソース画像内の単語を別の単語で置き換えるか修正する際、その現実的な外観を維持することです。この課題は難易度が高く、背景とテキストの両方のスタイルを保つ必要があるため、編集後の画像がソース画像から視覚的に区別できないようにすることが求められます。具体的には、エンドツーエンドで学習可能なスタイル保持ネットワーク(SRNet)を提案します。SRNetは3つのモジュールから構成されています:テキスト変換モジュール、背景補完モジュール、および融合モジュール。テキスト変換モジュールは、ソース画像のテキスト内容を目標のテキストに変更しながら元のテキストスタイルを保持します。背景補完モジュールは元のテキストを消去し、適切な質感でテキスト領域を埋めます。融合モジュールは前述の2つのモジュールからの情報を組み合わせて、編集されたテキスト画像を生成します。当該研究では、自然画像中での単語レベルでのテキスト編集への最初の試みであると認識しています。合成データセットおよび実世界データセット(ICDAR 2013)における視覚効果と定量的結果は、モジュール分解の重要性と必要性を完全に確認しています。また、我々は広範な実験を行い、提案手法が各種実世界応用(例えばテキスト画像合成、拡張現実(AR)翻訳、情報隠蔽など)において有用であることを検証しました。