要約
食品画像認識は、多数の細粒度食品クラスを含むため、複雑なコンピュータビジョンタスクである。細粒度認識タスクは、類似したクラスを区別するための微細な判別的特徴を学習することに焦点を当てる。本論文では、複数サブセット学習(Multi-Subsets learning)を活用して、識別が難しいクラスの分類性能を向上させるための新規手法を提案する。事前学習済みネットワークを用い、クラスタリング手法を用いてクラスを複数のサブセットに分割する。その後、これらのサブセットをマルチヘッドモデル構造に埋め込む。本構造は、三つの明確に区別できる部分で構成される。第一に、データの汎化表現を学習するために複数の共有ブロックを用いる。第二に、識別が困難な特定のサブセットに特化した複数の専門ブロックを導入する。第三に、全結合層を用いて、ニューロン出力を統合することで、エンド・トゥ・エンドのアプローチで異なるサブセットの重みを学習する。本手法は、3つの公的食品認識データセットを用いて、近年の最先端の視覚変換器(vision transformers)を用いて検証された。その結果、本手法は識別が困難なクラスをよりよく学習でき、3つのデータセットすべてにおいて既存の最先端手法を上回ることに成功した。