
要約
ラベル付きソースデータとラベルなしターゲットデータから学習する非教師付きシーン適応問題に着目する。既存の手法は、ソースドメインとターゲットドメイン間のドメイン間ギャップを最小化することに焦点を当てている。しかし、ネットワークが学習するドメイン内知識および固有の不確実性については十分に探求されていない。本論文では、ドメイン内知識を活用し、モデルの訓練を正則化するための直交的な手法、すなわち「メモリ正則化 in vivo(memory regularization in vivo)」を提案する。具体的には、セグメンテーションモデル自体をメモリモジュールとして定義し、主分類器と補助分類器の間の差異を最小化することで、予測の不整合を低減する。追加パラメータを一切用いないため、本手法は既存の多数のドメイン適応手法と相補的であり、一般的に既存手法の性能を向上させることができる。シンプルであるにもかかわらず、合成データから実データへの2つのベンチマーク(GTA5 → Cityscapes、SYNTHIA → Cityscapes)において、ベースラインモデルに対してそれぞれ+11.1%、+11.3%のmIoU向上を確認した。さらに、クロスシティベンチマーク(Cityscapes → Oxford RobotCar)においても、同様に+12.0%のmIoU向上が観測された。