15日前

Perceiver:反復注意を用いた一般化された Perception

Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira
Perceiver:反復注意を用いた一般化された Perception
要約

生物学的システムは、視覚、聴覚、触覚、本体感覚など、多様なモダリティから得られる高次元の入力を同時に処理することで、世界を認識する。一方、深層学習で用いられる認識モデルは、個々のモダリティに特化して設計されており、現存するほぼすべての視覚モデルが利用するような局所的なグリッド構造といった、ドメイン特有の仮定に依存していることが多い。これらの事前知識(prior)は有益な誘導的バイアス(inductive bias)をもたらす一方で、モデルを特定のモダリティに縛ってしまうという欠点もある。本論文では、Transformerを基盤としつつ、入力間の関係について極めて少ないアーキテクチャ上の仮定を置く「Perceiver」を提案する。このモデルは、ConvNetと同様に数十万もの入力を扱えるスケーラビリティを備えており、非対称なアテンション機構を用いて、入力を反復的に圧縮し、高密度な潜在的ボトルネック(latent bottleneck)へと統合する。このアーキテクチャにより、非常に大きな入力に対しても効率的に処理可能となる。我々は、この構造が、画像、点群、音声、動画、および音声+動画という複数のモダリティにおいて、強力な専用モデルと比較しても競争力を持ち、あるいはそれを上回ることを示した。ImageNetにおける分類タスクでは、2次元畳み込みを一切使用せずに5万ピクセルに直接アテンションを向けることで、ResNet-50やViTと同等の性能を達成した。また、AudioSetにおいても、すべてのモダリティにおいて競争力ある性能を発揮している。

Perceiver:反復注意を用いた一般化された Perception | 最新論文 | HyperAI超神経