
要約
本論文では、視覚領域向けの新しいニューラルアーキテクチャブロックである「地域的におよび局所的に混ぜる(Mixing Regionally and Locally: MRL)」を提案します。このブロックは、提供された入力特徴量を効果的かつ効率的に混合することを目指して開発されました。入力特徴量の混合タスクを、地域的なスケールと局所的なスケールでの混合に分けて取り組んでいます。効率的な混合を実現するために、自己注意(self-attention)によって提供されるドメイン全体の受容野を利用し、地域的なスケールでの混合を行います。また、局所的なスケールでの混合には、局所的な範囲に制限された畳み込みカーネルを使用します。具体的には、提案手法は定義された地域内の局所特徴量に関連する地域特徴量をまず混合し、その後、地域特徴量によって補完された局所的なスケールでの特徴量混合を行います。実験結果から、自己注意と畳み込みのハイブリッド化が容量向上、汎化能力(適切な帰納的バイアス)、および効率性の改善につながることが示されています。同様のネットワーク設定下で、MRLは分類、物体検出、セグメンテーションなどのタスクにおいて既存手法に匹敵または優れた性能を発揮しました。さらに、H&E組織学データセットに対してMRLベースのネットワークアーキテクチャが最先端の性能を達成したことを示しています。Kumar, CoNSep, CPM-17 データセットにおけるDICE係数はそれぞれ0.843, 0.855, 0.892であり、グループ畳み込みなどの層を取り入れることでデータセット固有の汎化能力を向上させるMRLフレームワークの柔軟性も強調しています。