
要約
画像スタイル転送の目的は、スタイル参照画像を用いてアーティスティックな特徴を導入しつつ、入力画像のオリジナルコンテンツを維持して画像を再構成することである。畳み込みニューラルネットワーク(CNN)における局所性の特性により、入力画像のグローバルな情報を抽出・保持することは困難である。その結果、従来のニューラルスタイル転送手法はコンテンツ表現に偏りが生じる問題を抱えている。この重要な課題に対処するため、本研究では、入力画像の長距離依存関係を考慮した、TransformerベースのアプローチであるStyTr^2を提案する。他の視覚タスク向けの視覚Transformerとは異なり、StyTr^2はコンテンツ用とスタイル用のそれぞれに特化した異なる2つのTransformerエンコーダを備え、それぞれがドメイン固有のシーケンスを生成する。これらのエンコーダの後には、スタイルシーケンスに従ってコンテンツシーケンスをスタイル化するための多層Transformerデコーダを採用している。さらに、既存の位置符号化手法の欠陥を分析し、スケール不変性を備え、画像スタイル転送タスクに特に適した「コンテンツに応じた位置符号化(Content-Aware Positional Encoding, CAPE)」を提案する。定性的および定量的な実験により、最先端のCNNベースおよびフローに基づく手法と比較して、提案手法StyTr^2の有効性が実証された。コードおよびモデルは、https://github.com/diyiiyiii/StyTR-2 にて公開されている。