17日前

Conviformers:畳み込みで誘導されるビジョン・トランスフォーマー

Mohit Vaishnav, Thomas Fel, Ivań Felipe Rodríguez, Thomas Serre
Conviformers:畳み込みで誘導されるビジョン・トランスフォーマー
要約

現在、ビジョントランスフォーマー(Vision Transformer: ViT)は画像分類タスクにおける実質的な標準選択となっている。画像分類には、細粒度分類(fine-grained classification)と粗粒度分類(coarse-grained classification)の2つの主要なカテゴリがある。特に細粒度分類では、サブクラス間の類似度が極めて高いことから、微細な差異を識別する必要がある。しかし、ViTのメモリおよび計算コストを削減するため画像を低解像度化(ダウンスケーリング)すると、こうした微細な差異が失われてしまう傾向がある。本研究では、標本室(herbarium)スチール画像からの植物の細粒度分類を実現するためのシステム構築に必要な重要な要素について、詳細な分析を実施した。広範な実験的検証の結果、より効果的なデータ拡張技術の導入と、現代のニューラルネットワークが高次元画像を適切に処理できる能力の必要性が明らかになった。さらに、従来のビジョントランスフォーマー(ConViT)とは異なり、メモリ使用量や計算コストが急増することなく高解像度画像を扱える、畳み込み型トランスフォーマー構造である「Conviformer」を提案した。また、画像の元のアスペクト比を保持しつつより適切にリサイズを行う、新たな改善型前処理手法「PreSizer」も導入した。この手法は、自然植物の分類において特に重要であることが実証された。本研究で提示するシンプルながら効果的なアプローチにより、Herbarium 202xおよびiNaturalist 2019データセットにおいて、現在の最良(SoTA)の性能を達成した。