
要約
Implicit Neural Representations(INR)は、超解像、3Dモデリングなど、さまざまな終端タスクにおける信号および画像表現において、近年大きな注目を集めている。多くのINRアーキテクチャは、データ内の高周波成分を捉えるために正弦波位置符号化(sinusoidal positional encoding)に依存している。しかし、有限な符号化サイズの制約により、モデルの表現力に限界が生じる。単一の画像を表現するレベルから、大規模かつ多様なデータセットを表現するためには、より高い表現力が求められる。本研究では、画像を多項式関数で表現するアプローチを提案し、位置符号化の必要性を完全に排除する。これにより、ReLU層の各段階で特徴量とアフィン変換された座標位置との要素ごとの乗算を繰り返すことで、多項式表現の次数を段階的に高めていく。提案手法は、ImageNetをはじめとする大規模データセット上で定性的・定量的に評価された。その結果、畳み込み層、正規化層、自己注意機構(self-attention)を一切使用せずに、最先端の生成モデルと同等の性能を達成し、かつ学習可能なパラメータ数ははるかに少ないことが明らかになった。少ない学習パラメータと高い表現力という特長を備える本手法は、複雑な領域における生成モデリングタスクにおいてINRモデルの広範な適用を可能にする道を開く。コードは以下のURLで公開されている:\url{https://github.com/Rajhans0/Poly_INR}