HyperAIHyperAI

Command Palette

Search for a command to run...

DAS:CNNにおける顕著な情報を捉えるための可変アテンション

Farzad Salajegheh Nader Asadi Soroush Saryazdi Sudhir Mudur

概要

畳み込みニューラルネットワーク(CNN)は局所的な空間パターンの認識において優れた性能を発揮する。多くの視覚タスク、たとえば物体認識やセグメンテーションにおいて、CNNのカーネル境界外にも重要な情報が存在するが、CNNは受容fieldが限られているため、こうした関連情報を捉えきれないという課題がある。一方、自己注意機構(self-attention)はモデルがグローバルな情報をより効果的に利用できるようにするが、計算コストが大幅に増加するという問題がある。本研究では、関連する情報に注目を集中させることを可能にする、高速かつシンプルな完全畳み込み型手法であるDAS(Deformable Attention Sampling)を提案する。DASは、関連領域の位置を柔軟に捉えるための可変畳み込み(deformable convolutions)と、効率性を確保するための分離畳み込み(separable convolutions)を組み合わせている。DASは既存のCNNに容易に統合可能であり、ゲーティング機構を用いて関連情報を伝搬する。Transformer系の注意機構がO(n²)の計算量を要するのに対し、DASはO(n)の計算量で実現可能である。我々の主張は、DASが関連特徴に注目を強化できるという特性により、代表的なCNNアーキテクチャ(例:ResNet50)に追加することで、画像分類および物体検出の性能向上が達成できることである。例えば、Stanford Dogsデータセットでは4.47%、ImageNetでは1.91%、COCOのAPでは3.3%の性能向上が得られた。この成果は、同等またはより少ないFLOPsで他のCNN用の注意機構を上回っている。本研究の実装コードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DAS:CNNにおける顕著な情報を捉えるための可変アテンション | 記事 | HyperAI超神経