HyperAIHyperAI

Command Palette

Search for a command to run...

Jigsaw-ViT:Vision Transformerにおけるジグソーパズルの学習

Yingyi Chen Xi Shen Yahui Liu Qinghua Tao Johan A.K. Suykens

概要

視覚変換器(Vision Transformer: ViT)が様々なコンピュータビジョンタスクにおいて成功を収めたことにより、畳み込み演算を一切用いないこのネットワークの普及はますます進んでいます。ViTが画像パッチを処理するという特徴から、シャッフルされた順序で配置された画像パッチを元の自然な配置に戻すことを目的とする、古典的な自己教師学習タスクである「ジグソーパズルの解法」問題との関連性が期待されています。たとえシンプルなタスクであっても、畳み込みニューラルネットワーク(CNN)を用いた研究では、ジグソーパズルの解法が自己教師学習による特徴表現学習、ドメイン一般化、細粒度分類など多様なタスクに有用であることが示されています。本論文では、画像分類タスクにおけるViTの自己教師学習補助損失としてジグソーパズルの解法を活用する手法、すなわち「Jigsaw-ViT」を提案します。我々は、標準的なViTよりも優れた性能を実現するための2つの改良点を提示します。すなわち、位置埋め込み(positional embeddings)を削除すること、およびパッチをランダムにマスキングすることです。これらは単純な手法ではありますが、Jigsaw-ViTが標準的なViTと比較して、一般化性能とロバスト性の両方を向上させることができることを明らかにしました。これは、通常はトレードオフ関係にある性能指標であるため、特に注目すべき成果です。実験的に、ImageNetにおける大規模画像分類タスクにおいて、ジグソーパズルブランチを追加したJigsaw-ViTが標準ViTよりも優れた一般化性能を示すことを確認しました。さらに、ノイズのあるラベルに対するロバスト性も、Animal-10N、Food-101N、Clothing1Mのデータセットにおいて向上し、敵対的例に対する耐性も改善されました。本研究の実装コードは、以下のURLから公開されています:https://yingyichen-cyy.github.io/Jigsaw-ViT/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Jigsaw-ViT:Vision Transformerにおけるジグソーパズルの学習 | 記事 | HyperAI超神経