
近年、学習型画像圧縮(Learned Image Compression: LIC)は顕著な進展を遂げている。既存の手法では、主にCNNベースまたは自己注意(self-attention)ベースのモジュールを変換手法として用いることが一般的である。しかし、特定の領域に焦点を当てたニューラル変換に関する先行研究は存在しない。これに対応して、本研究ではカテゴリラベルを付与しないセマンティックマスク(クラスに依存しないセグメンテーションマスク)を用いて、領域に適応した文脈情報を抽出することを提案する。提案するモジュールである「領域適応変換(Region-Adaptive Transform)」は、これらのマスクに基づいて異なる領域に対して適応的な畳み込みを適用する。さらに、複数の領域から豊かな文脈情報を統合するためのプラグアンドプレイ型モジュール「スケールアフィン層(Scale Affine Layer)」を導入した。セグメンテーションマスクを追加の中間入力として用いる画像圧縮の先行研究は存在するが、本手法はそれらと大きく異なる。本研究の利点は、追加のビットレート負荷を回避するために、これらのマスクをトレーニング段階でのみ利用可能な「特権情報(privilege information)」として扱う点にある。推論段階ではこれらのマスクを必要としない。知られている限り、本研究は初めてクラスに依存しないマスクを特権情報として用い、ピーク信号対雑音比(PSNR)をはじめとするピクセル忠実度指標において優れた性能を達成した。実験結果により、従来の高性能な手法と比較して、VTM-17.0と比べて約8.2%のビットレート削減を実現した。ソースコードは以下のURLで公開されている:https://github.com/GityuxiLiu/SegPIC-for-Image-Compression。