HyperAIHyperAI

Command Palette

Search for a command to run...

iBOT: オンライントークナイザーを使用した画像BERTの事前学習

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

概要

言語トランスフォーマーの成功は、主にマスク言語モデル(Masked Language Modeling: MLM)という前処理タスクに帰属されます。このタスクでは、テキストが意味的に重要な部分にトークン化されます。本研究では、マスク画像モデリング(Masked Image Modeling: MIM)を検討し、意味的に重要な視覚的なトークナイザーを使用する際の利点と課題について指摘します。私たちは、オンライントークナイザーでマスク予測を行う自己監督学習フレームワークiBOTを提案します。具体的には、マスクされたパッチトークンに対して自己蒸留を行い、教師ネットワークをオンライントークナイザーとして使用します。また、クラストークンに対する自己蒸留を行い、視覚的な意味論を獲得します。オンライントークナイザーはMIM目的関数とともに共同学習が可能であり、事前にトークナイザーをプレトレーニングする必要がある多段階の学習パイプラインを省きます。ImageNet-1Kでの評価において、iBOTは82.3%の線形プロービング精度と87.8%のファインチューニング精度を達成し、その優れた性能を示しています。最先端の画像分類結果だけでなく、ローカルな意味論的パターンが現れることも強調しており、これによりモデルは一般的な腐食に対する強い堅牢性を得ることができ、物体検出やインスタンスセグメンテーション、セマンティックセグメンテーションなどの密集型下流タスクで優れた結果を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています