HyperAI超神经

基于文本的图像修复与扩散模型

Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
发布日期: 6/15/2025
基于文本的图像修复与扩散模型
摘要

图像修复旨在恢复退化的图像。然而,现有的基于扩散模型的修复方法尽管在自然图像修复方面取得了巨大成功,但在忠实重建退化图像中的文本区域时仍面临挑战。这些方法经常生成看似合理但错误的类似文本的图案,我们将其称为文本图像幻觉。本文中,我们引入了一种新的修复任务——文本感知图像修复(TAIR),该任务要求同时恢复视觉内容和文本保真度。为了解决这一任务,我们提出了SA-Text,这是一个包含10万张高质量场景图像的大规模基准数据集,其中密集标注了多样且复杂的文本实例。此外,我们提出了一种多任务扩散框架——TeReDiff,该框架将扩散模型的内部特征整合到一个文本检测模块中,使得两个组件都能从联合训练中受益。这使得能够提取丰富的文本表示,并在后续去噪步骤中作为提示使用。大量实验表明,我们的方法在文本识别准确率方面显著优于现有最先进的修复方法。请访问我们的项目页面:https://cvlab-kaist.github.io/TAIR/