17日前
Perceiver IO:構造化入力および出力のための汎用アーキテクチャ
Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, Joāo Carreira

要約
機械学習の中心的な目標の一つは、可能な限り多くのデータ領域で多くの問題を解くことができるシステムの開発である。しかし、現行のアーキテクチャは、ドメインやタスクに関する前提を内包しているため、限定的な標準的な設定にしか適用できず、大規模な入力や出力に対してはスケーラビリティが著しく劣る。本研究では、入出力のサイズに線形にスケーリングしつつ、任意の設定からのデータを処理可能な汎用アーキテクチャ「Perceiver IO」を提案する。本モデルは、Perceiverに柔軟なクエリ機構を追加することで、さまざまなサイズおよび意味を持つ出力を生成可能にし、タスク固有のアーキテクチャ設計の必要性を排除している。同一のアーキテクチャにより、自然言語および視覚理解、マルチタスク・マルチモーダル推論、StarCraft IIにおけるタスクなど、広範なタスクで優れた性能を達成している。特に、入力のトークン化を完全に排除したにもかかわらず、GLUE言語ベンチマークにおいてTransformerベースのBERTベースラインを上回り、また、マルチスケールの対応を明示的に導入していないにもかかわらず、Sintel光流推定において最先端の性能を達成した。