17日前

局所ウィンドウの限界を越えて:適応的トークン辞書を備えた高度な超解像変換器

Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
局所ウィンドウの限界を越えて:適応的トークン辞書を備えた高度な超解像変換器
要約

単一画像のスーパーレゾリューションは、低解像度(LR)画像から高解像度(HR)画像を推定するという古典的なコンピュータビジョンの問題である。近年、特にスーパーレゾリューションに応用されたTransformerを含む深層ニューラルネットワーク(DNN)は著しい進展を遂げているが、窓ベースの自己注意機構に起因する受容 field の制限といった課題が依然として残っている。こうした問題に対処するため、本研究ではSR Transformerに補助的な適応型トークン辞書(Adaptive Token Dictionary, ATD)のグループを導入し、ATD-SRという手法を提案する。導入されたトークン辞書は学習データから事前知識を学習し、適応的精緻化ステップを用いてその学習済み事前知識を特定のテスト画像に適応させる。この精緻化戦略は、入力トークンすべてにグローバルな情報を提供するだけでなく、画像トークンをカテゴリにグループ化する機能も有している。カテゴリ分割に基づき、本研究では遠方にあるが類似したトークンを活用して入力特徴を強化するためのカテゴリベースの自己注意機構を新たに提案する。実験結果から、本手法がさまざまな単一画像スーパーレゾリューションベンチマークにおいて最良の性能を達成することが確認された。