2ヶ月前

iBOT: オンライントークナイザーを使用した画像BERTの事前学習

Jinghao Zhou; Chen Wei; Huiyu Wang; Wei Shen; Cihang Xie; Alan Yuille; Tao Kong
iBOT: オンライントークナイザーを使用した画像BERTの事前学習
要約

言語トランスフォーマーの成功は、主にマスク言語モデル(Masked Language Modeling: MLM)という前処理タスクに帰属されます。このタスクでは、テキストが意味的に重要な部分にトークン化されます。本研究では、マスク画像モデリング(Masked Image Modeling: MIM)を検討し、意味的に重要な視覚的なトークナイザーを使用する際の利点と課題について指摘します。私たちは、オンライントークナイザーでマスク予測を行う自己監督学習フレームワークiBOTを提案します。具体的には、マスクされたパッチトークンに対して自己蒸留を行い、教師ネットワークをオンライントークナイザーとして使用します。また、クラストークンに対する自己蒸留を行い、視覚的な意味論を獲得します。オンライントークナイザーはMIM目的関数とともに共同学習が可能であり、事前にトークナイザーをプレトレーニングする必要がある多段階の学習パイプラインを省きます。ImageNet-1Kでの評価において、iBOTは82.3%の線形プロービング精度と87.8%のファインチューニング精度を達成し、その優れた性能を示しています。最先端の画像分類結果だけでなく、ローカルな意味論的パターンが現れることも強調しており、これによりモデルは一般的な腐食に対する強い堅牢性を得ることができ、物体検出やインスタンスセグメンテーション、セマンティックセグメンテーションなどの密集型下流タスクで優れた結果を達成しています。

iBOT: オンライントークナイザーを使用した画像BERTの事前学習 | 最新論文 | HyperAI超神経