17日前

合成画像から実画像へのセマンティックセグメンテーションのためのグローバル・ローカルテクスチャランダム化

Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, Jun Liu
合成画像から実画像へのセマンティックセグメンテーションのためのグローバル・ローカルテクスチャランダム化
要約

セマンティックセグメンテーションは、画像の各ピクセルを対応するラベルに分類する重要な画像理解タスクである。実際のタスクでは、真値(ground-truth)に対するピクセル単位のラベル付けは手間がかかるため、多くの研究では実世界画像のセマンティックセグメンテーションのためのモデル学習に合成画像を活用する、いわゆる「合成画像から実画像へのセマンティックセグメンテーション(Synthetic-to-Real Semantic Segmentation: SRSS)」のアプローチが採用されている。しかし、合成データ上で学習された深層畳み込みニューラルネットワーク(CNN)は、実世界のターゲットデータへの一般化性能が十分でない場合がある。本研究では、ドメイン一般化に基づくSRSSのための、シンプルでありながら有効なテクスチャランダマイゼーション機構として、グローバルテクスチャランダマイゼーション(Global Texture Randomization: GTR)とローカルテクスチャランダマイゼーション(Local Texture Randomization: LTR)の2つの手法を提案する。GTRは、ソース画像のテクスチャを多様な非現実的なテクスチャスタイルにランダムに変換することで、ネットワークがテクスチャに依存する傾向を軽減し、ドメイン不変の特徴の学習を促進することを目的としている。さらに、テクスチャの差異が画像全体にわたるとは限らず、局所的な領域に限定される場合があることを見出した。このため、ソース画像の一部領域にのみスタイル変換を施すことで多様な局所領域を生成するLTR機構をさらに提案した。最後に、GTRとLTRの両手法が学習中に調和するよう、両者の一貫性を保つ正則化手法(Consistency between GTR and LTR: CGL)を導入した。GTA5、SYNTHIA、Cityscapes、BDDS、Mapillaryの5つの公開データセットを対象に、さまざまなSRSS設定(例:GTA5/SYNTHIA → Cityscapes/BDDS/Mapillary)において実施した広範な実験結果から、提案手法がドメイン一般化に基づくSRSSの最先端手法を上回ることを示した。

合成画像から実画像へのセマンティックセグメンテーションのためのグローバル・ローカルテクスチャランダム化 | 最新論文 | HyperAI超神経