ノイズラベルの修正にSequential Priorを用いた手法:堅牢なビデオセグメンテーションのための多スケール時系列特徴アフィニティ学習

医療画像セグメンテーションにおいて、ノイジーラベルの問題は避けられない存在であり、性能の著しい低下を引き起こします。従来のノイジーラベル問題に対するセグメンテーション手法は単一の画像のみを使用しており、画像間の相関関係を活用する可能性が見過ごされていました。特にビデオセグメンテーションでは、隣接フレームに豊富な文脈情報が含まれており、これがノイジーラベルの認識に有益です。このような二つの洞察に基づいて、我々はノイズ付きラベルの医療ビデオセグメンテーション問題を解決するために、マルチスケール時系列特徴親和性学習(Multi-Scale Temporal Feature Affinity Learning: MS-TFAL)フレームワークを提案します。まず、ビデオの逐次的な事前知識が効果的な参照であると主張します。つまり、同じクラスの場合には隣接フレームからのピクセルレベル特徴量が距離的に近くなり、異なるクラスの場合には遠くなります。このため、時系列特徴親和性学習(Temporal Feature Affinity Learning: TFAL)を考案し、二つの隣接フレーム間のピクセルの親和性を評価することで可能となるノイジーなラベルを示す方法を開発しました。また、ノイズ分布はビデオレベル、画像レベル、ピクセルレベルで大きく異なることを観察しています。これに対応して、マルチスケール監督(Multi-Scale Supervision: MSS)を導入し、サンプルの重み付けと精製によりネットワークを三つの異なる視点から監督します。この設計により、ネットワークは粗い段階から細かい段階へとクリーンなサンプルに焦点を当てることが可能になります。合成データおよび実世界データでの実験結果は、我々の手法が最近の最先端ロバストセグメンテーションアプローチよりも優れていることを示しています。コードは以下のURLで公開されています:https://github.com/BeileiCui/MS-TFAL