
Transformerを基盤とする手法は、長距離依存関係を効果的に抽出できる点から、単一画像の超解像(SISR)分野において顕著な可能性を示している。しかし、現行の大多数の研究は、グローバルな情報を捉えるためのTransformerブロックの設計に注力している一方で、高周波情報の事前知識(high-frequency priors)を組み込む重要性を軽視していると考えられる。本研究では、一連の実験を通じて、Transformer構造が低周波情報の抽出には優れているものの、畳み込み層と比較して高周波表現の構築能力に制限があることを明らかにした。これを解決するために、我々は、畳み込み構造とTransformer構造の長所を融合した新規アーキテクチャである「クロスリファインメント適応的特徴調製Transformer(CRAFT)」を提案する。CRAFTは、以下の3つの主要な構成要素から成る:高周波強調残差ブロック(HFERB)による高周波情報の抽出、シフト矩形窓アテンションブロック(SRWAB)によるグローバル情報の捕捉、およびハイブリッド融合ブロック(HFB)によるグローバル表現の精緻化。また、Transformer構造固有の複雑性に対処するため、CRAFTの効率性を向上させる「周波数誘導型事後訓練量子化(frequency-guided post-training quantization: PTQ)」手法を導入した。この手法は、適応的二重クリッピング(adaptive dual clipping)と境界の精緻化(boundary refinement)を組み合わせることで、量子化精度と推論効率の両立を実現している。さらに、本手法の汎用性を高めるために、PTQ戦略をTransformerベースのSISR手法全体に適用可能な汎用量子化手法として拡張した。実験結果から、CRAFTはフルプレシジョンおよび量子化環境の両方において、現在の最先端手法を上回る性能を発揮することが示された。これらの結果は、本研究で提案するPTQ戦略の有効性と普遍性を裏付けている。ソースコードは以下のURLから公開されている:https://github.com/AVC2-UESTC/Frequency-Inspired-Optimization-for-EfficientSR.git。