17日前

偏差を偏差で排除する:データ拡張および汎用マルチモーダルデータ学習手法

Yunpeng Gong, Liqing Huang, Lifei Chen
偏差を偏差で排除する:データ拡張および汎用マルチモーダルデータ学習手法
要約

コンピュータビジョンにおける課題の一つは、変化する環境における色のずれ(色偏差)に適応する必要がある点である。したがって、色偏差が予測に与える悪影響を最小限に抑えることは、視覚タスクの主要な目標の一つとなっている。現在の解決策は、入力変動に対する不変性(invariance)を高めるために、生成モデルを用いて訓練データを拡張することに注力している。しかし、このような手法はしばしば新たなノイズを導入するため、生成データから得られる効果が制限されることがある。こうした問題に対処するため、本論文では「色のずれを色のずれで補う」という戦略を提案し、これを「ランダムカラードロップアウト(Random Color Dropout, RCD)」と命名する。我々の仮説は、クエリ画像とギャラリー画像の間に色のずれが存在する場合、色情報を無視することで、一部のサンプルについて検索結果が改善される可能性があるというものである。具体的には、訓練データにおいて部分的な色情報をドロップアウトすることで、ニューラルネットワーク内の色特徴と色に依存しない特徴の重みバランスを調整し、色偏差の影響を軽減する。提案するRCDは、既存のReIDモデルと組み合わせて使用可能であり、学習戦略を変更することなく適用可能であり、オブジェクト検出を含む他のコンピュータビジョン分野にも応用可能である。Market1501、DukeMTMC、MSMT17の3つの代表的な大規模データセットを用いた複数のReIDベースラインにおける実験により、本手法の有効性が検証された。さらに、クロスドメインテストにおける実験では、この戦略がドメインギャップを顕著に低減することも示された。さらに、RCDの動作メカニズムを理解するため、分類の観点からこの戦略の有効性を分析した結果、ドメイン変動が強い視覚タスクにおいては、すべての色情報を利用するのではなく、部分的な色情報を利用する方が効果的である可能性が示唆された。

偏差を偏差で排除する:データ拡張および汎用マルチモーダルデータ学習手法 | 最新論文 | HyperAI超神経