
要約
細粒度画像分類は、データセットに階層的な粗い粒度から細かい粒度への分布が存在するため、困難なタスクである。一般的に、細粒度データセットにおける異なるオブジェクトの区別には、オブジェクトの部位(part)が用いられるが、すべての部位が有用であるとは限らない。近年、自然言語による記述を用いて、オブジェクトの識別的特徴となる部位に関する情報を得るアプローチが注目されている。本論文では、自然言語記述を活用し、複数層を持つ二本のブランチから構成されるネットワークを用いて、自然言語記述と画像の共同表現を学習する戦略を提案する。これにより、細粒度画像分類の性能が著しく向上することが、広範な実験から示された。さらに、本手法はCUB-200-2011データセットにおいて、新たな最先端(state-of-the-art)の成果を達成した。