Command Palette
Search for a command to run...
GKGNet: グループK最近傍に基づくグラフ畳み込みネットワークによる多ラベル画像認識
GKGNet: グループK最近傍に基づくグラフ畳み込みネットワークによる多ラベル画像認識
Ruijie Yao Sheng Jin* Lumin Xu Wang Zeng Wentao Liu Chen Qian* Ping Luo Ji Wu
概要
マルチラベル画像認識(MLIR)は、単一の画像内で複数の物体ラベルを予測するとともに、ラベルと画像領域間の複雑な関係をモデル化することを目指す難易度の高い課題です。畳み込みニューラルネットワークやビジョントランスフォーマーは、画像をピクセルやパッチの規則的なグリッドとして処理することで成功していますが、これらの表現は不規則で断続的な興味領域を捉えるためには最適ではありません。本研究では、意味的ラベル埋め込みと画像パッチ間の接続を柔軟かつ統一されたグラフ構造でモデル化する最初の完全グラフ畳み込みモデルであるグループK最近傍点に基づくグラフ畳み込みネットワーク(GKGNet)を提案します。異なる物体のスケール変動に対応し、複数の視点から情報を捉えるために、動的なグラフ構築とメッセージ伝播を行うGroup KGCNモジュールを提案します。実験結果は、MS-COCOおよびVOC2007データセットにおいて、GKGNetが大幅に低い計算コストで最先端の性能を達成していることを示しています。コードはhttps://github.com/jin-s13/GKGNet で入手可能です。