6ヶ月前

概要

近年、深層学習アーキテクチャは画像分類において優れた成果を示している。しかし、小さなデータセットにおいて高度なニューラルネットワークアーキテクチャを適用することは依然として課題である。このような状況に対処するため、転移学習（transfer learning）は有望なアプローチである。一般的に、既に事前学習されたアーキテクチャは標準的な固定入力サイズを採用しており、これは前処理段階で入力画像のリサイズやクロッピングを必要とし、情報損失を引き起こすことがある。さらに、実世界の画像では視覚的特徴が異なるスケールで現れることが多く、従来の多くはこの事実を考慮していない。本研究では、小規模データセットに対する転移学習を活用しつつ、異なるスケールから抽出された視覚的特徴を効果的に活用する手法を提案する。本手法は、異なるスケールの画像をグラフとして表現し、そのノードを異なるスケールの通常の画像パッチから事前学習モデルによって抽出された特徴で特徴づけるグラフ畳み込みネットワーク（GCN）に基づいている。GCNはノード数が異なるグラフを扱えるため、本手法は異なるサイズの画像を自然に処理でき、関連する情報を捨てる必要がない。本手法の有効性を、地質画像のセットと公開データセットの2つのデータセットで評価した。これらは従来のアプローチが困難に直面する特性を有している。特徴抽出器として、3つの異なる事前学習モデル（DenseNetとResNeXtという2つの効率的なCNNモデル、およびVision TransformerであるCLIP）を用いて実験を行った。提案手法は、画像分類のための2つの従来手法と比較された。実験の結果、本手法は従来手法よりも優れた性能を達成したことが明らかになった。

ソースPDF コードを表示