HyperAIHyperAI

Command Palette

Search for a command to run...

GKGNet: グループK最近傍に基づくグラフ畳み込みネットワークによる多ラベル画像認識

Ruijie Yao Sheng Jin* Lumin Xu Wang Zeng Wentao Liu Chen Qian* Ping Luo Ji Wu

概要

マルチラベル画像認識(MLIR)は、単一の画像内で複数の物体ラベルを予測するとともに、ラベルと画像領域間の複雑な関係をモデル化することを目指す難易度の高い課題です。畳み込みニューラルネットワークやビジョントランスフォーマーは、画像をピクセルやパッチの規則的なグリッドとして処理することで成功していますが、これらの表現は不規則で断続的な興味領域を捉えるためには最適ではありません。本研究では、意味的ラベル埋め込みと画像パッチ間の接続を柔軟かつ統一されたグラフ構造でモデル化する最初の完全グラフ畳み込みモデルであるグループK最近傍点に基づくグラフ畳み込みネットワーク(GKGNet)を提案します。異なる物体のスケール変動に対応し、複数の視点から情報を捉えるために、動的なグラフ構築とメッセージ伝播を行うGroup KGCNモジュールを提案します。実験結果は、MS-COCOおよびVOC2007データセットにおいて、GKGNetが大幅に低い計算コストで最先端の性能を達成していることを示しています。コードはhttps://github.com/jin-s13/GKGNet で入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています