HyperAIHyperAI

Command Palette

Search for a command to run...

シーケンサ:画像分類のためのDeep LSTM

Yuki Tatsunami Masato Taki

概要

近年のコンピュータビジョン分野における研究において、Vision Transformer(ViT)の登場により、アーキテクチャ設計の分野が急速に変化している。ViTは自然言語処理で用いられる自己注意機構(self-attention)を活用して、画像分類において最先端の性能を達成した。一方、MLP-Mixerは単純な多層パーセプトロン(MLP)のみを用いることで、競争力のある性能を実現した。これに対して、いくつかの研究では、新たなアイデアに依拠せずに、慎重に再設計された畳み込みニューラルネットワーク(CNN)でもViTと同等の高度な性能が達成可能であることが示唆されている。このような背景のもと、コンピュータビジョンに適した誘導的バイアス(inductive bias)とは何かという問いに、注目が集まっている。本研究では、ViTの代替として新たな視点を提供する、新規かつ競争力のあるアーキテクチャ「Sequencer」を提案する。ViTとは異なり、Sequencerは自己注意層ではなく、LSTM(Long Short-Term Memory)を用いて長距離依存関係をモデル化する。さらに、2次元版のSequencerモジュールも提案し、LSTMを垂直方向と水平方向のLSTMに分解することで性能を向上させた。単純な構造にもかかわらず、複数の実験により、Sequencerの優れた性能が示された。特に、パラメータ数54MのSequencer2D-Lは、ImageNet-1Kデータセットにおいて84.6%のトップ1精度を達成した。さらに、このモデルが優れた転移学習性能を有し、解像度を2倍にした状況でも高いロバスト性を示すことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
シーケンサ:画像分類のためのDeep LSTM | 記事 | HyperAI超神経