テキストに配慮したディフュージョンモデルを用いた画像修復
Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
公開日: 6/15/2025

要約
画像修復の目的は、劣化した画像を回復することである。しかし、既存の拡散型修復手法は自然画像の修復において大きな成功を収めているにもかかわらず、劣化した画像内のテキスト領域を忠実に再構築することがしばしば困難である。これらの手法は、実在感のあるが誤ったテキストパターンを頻繁に生成する傾向があり、この現象を「テキスト・イメージ・ホールシネーション」と呼んでいる。本論文では、視覚的なコンテンツとテキストの忠実性を同時に回復する新しい修復タスクであるText-Aware Image Restoration (TAIR) を提案する。この課題に対処するために、10万枚の高品質なシーン画像に多様で複雑なテキストインスタンスが密集してアノテーションされた大規模ベンチマークデータセット SA-Text を提示する。さらに、拡散モデルから得られる内部特徴量をテキスト検出モジュールに統合し、両コンポーネントが共同訓練によって恩恵を受けられるマルチタスク拡散フレームワーク TeReDiff を提案する。これにより豊かなテキスト表現が抽出され、その後のデノイジングステップでプロンプトとして利用されることが可能となる。広範な実験結果から、当方針が最先端の修復手法を一貫して上回り、テキスト認識精度において大幅な改善を達成していることが示されている。プロジェクトページをご覧ください: https://cvlab-kaist.github.io/TAIR/