7日前

同じバウンディングボックスを2回描く?繰り返しラベルを用いたオブジェクト検出におけるノイズのあるアノテーションへの対処

David Tschirschwitz, Christian Benz, Morris Florek, Henrik Norderhus, Benno Stein, Volker Rodehorst
同じバウンディングボックスを2回描く?繰り返しラベルを用いたオブジェクト検出におけるノイズのあるアノテーションへの対処
要約

教師あり機械学習システムの信頼性は、真のラベル(ground truth)の正確性と入手可能性に依存する。しかし、人間によるラベリングプロセスは誤りを引き起こしやすいことから、ノイズを含むラベルが生じる可能性があり、これによりシステムの実用性が損なわれるおそれがある。ノイズを含むラベルを用いた学習は重要な課題であるが、テストデータの信頼性も、得られた結果の妥当性を評価する上で不可欠である。この問題に対処する一般的なアプローチとして、複数のラベラーが同一のサンプルにラベルを付与する「繰り返しラベリング」があり、そのラベルを統合することで真のラベルのより良い推定が可能となる。本論文では、物体検出およびインスタンスセグメンテーションタスクに向けた、既に確立された真のラベル推定手法を適応した新たな局在化アルゴリズムを提案する。本手法の鍵となる革新点は、統合された局在化と分類タスクを、分類のみの問題に変換できる点にあり、これにより期待値最大化(Expectation-Maximization, EM)や多数決投票(Majority Voting, MJV)などの手法を適用可能となる。主な目的はテストデータに対する一意の真のラベルの集約であるが、TexBiGデータセットにおける学習時にも本アルゴリズムは、ノイズを含むラベルを用いた学習や重み付きボックス融合(Weighted Boxes Fusion, WBF)を用いたラベル集約を上回る優れた性能を示した。実験の結果、繰り返しラベリングの利点は、特定のデータセット構成およびラベリング設定下で顕著に現れることが明らかになった。その主な要因として、(1)データセットの複雑さ、(2)ラベラー間の一貫性、(3)ラベリング予算の制約が挙げられる。

同じバウンディングボックスを2回描く?繰り返しラベルを用いたオブジェクト検出におけるノイズのあるアノテーションへの対処 | 最新論文 | HyperAI超神経