
基于Transformer的方法在单图像超分辨率(SISR)任务中展现出显著潜力,能够有效捕捉图像中的长程依赖关系。然而,当前该领域的多数研究主要聚焦于设计Transformer模块以提取全局信息,而忽视了高频先验信息的重要性,我们认为这可能带来优化空间。在本研究中,我们通过一系列实验发现,相较于卷积结构,Transformer架构在捕捉低频信息方面表现更优,但在构建高频特征表示方面能力有限。为此,我们提出了一种新型网络结构——跨模态自适应特征调制Transformer(Cross-Refinement Adaptive Feature Modulation Transformer, CRAFT),该方法融合了卷积网络与Transformer架构的优势。CRAFT包含三个核心组件:用于提取高频信息的高频增强残差块(High-Frequency Enhancement Residual Block, HFERB)、用于捕捉全局上下文的移位矩形窗口注意力块(Shift Rectangle Window Attention Block, SRWAB),以及用于优化全局表征的混合融合块(Hybrid Fusion Block, HFB)。为应对Transformer结构固有的复杂性问题,我们进一步提出一种基于频率引导的后训练量化(Post-Training Quantization, PTQ)方法,旨在提升CRAFT的推理效率。该方法引入自适应双截断(adaptive dual clipping)与边界精炼(boundary refinement)机制,有效增强了量化后的模型性能。为进一步提升所提方法的通用性,我们将该PTQ策略扩展为适用于基于Transformer的SISR技术的通用量化方案。实验结果表明,无论在全精度还是量化场景下,CRAFT均显著优于现有最先进方法。这些成果充分验证了我们所提PTQ策略的有效性与广泛适用性。相关源代码已开源,地址为:https://github.com/AVC2-UESTC/Frequency-Inspired-Optimization-for-EfficientSR.git。