17日前

メタデータを用いたウェブ由来の教師あり画像分類:視覚的・意味的グラフを用いた自動ノイズラベル補正

Jingkang Yang, Weirong Chen, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang
メタデータを用いたウェブ由来の教師あり画像分類:視覚的・意味的グラフを用いた自動ノイズラベル補正
要約

最近、高価な人間によるラベル付けを必要とせずにデータ拡張が効率的に行えることから、ウェブライ・スーパーヴァイズド・ラーニング(Webly supervised learning)が注目を集めている。しかし、画像のラベルとして検索クエリやハッシュタグを採用する際には、大量のノイズが生じ、深層ニューラルネットワーク(DNN)の性能を低下させる。特に、クエリ語の意味的曖昧さにより、あるクエリで取得された画像には、その概念とは異なる他の概念に属する画像が多数含まれる。たとえば、Flickrで「tiger cat」と検索すると、猫の画像よりも虎の画像が圧倒的に多く表示される。このような現実的なノイズデータは、視覚空間上において明確な視覚的意味クラスタを形成する傾向があり、DNNが正確な意味ラベルを学習するのを妨げる。現実世界のノイズラベルを修正するには、高コストな人間によるアノテーションが不可欠とされるが、幸いにも我々は、メタデータが労力のかからない形でクリーンなウェブラベルを発見するための追加知識を提供できることを発見した。これにより、大量のラベルノイズを含むウェブデータにおいて、自動的に正確な意味的ガイダンスを提供することが可能となる。本論文では、視覚・意味グラフに基づく自動ラベル補正手法VSGraph-LCを提案する。VSGraph-LCは、メタデータと正しいラベル概念間の意味的類似性に基づいてアンカーを選定し、その後、グラフニューラルネットワーク(GNN)を用いて視覚グラフ上でアンカーから正しいラベルを伝搬する。実世界のウェブライ・スーパーヴァイズド・ラーニングデータセットWebvision-1000およびNUS-81-Webを用いた実験により、VSGraph-LCの有効性とロバスト性が確認された。さらに、オープンセットの検証セットにおいても、VSGraph-LCがその優位性を示した。