6ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Polezhaev Ignat Goncharenko Igor Iurina Natalya

概要

本稿では、視覚的注目度予測や眼動追跡の精度向上を目的として、新たな手法であるMDS-ViTNet（Multi Decoder Saliency by Vision Transformer Network）を提案する。このアプローチは、マーケティング、医療、ロボティクス、小売業など多様な分野における応用可能性を有している。従来のImageNetベースのバックボーンにとらわれず、Vision Transformer（ViT）を活用したネットワーク構造を提案する。本フレームワークはエンコーダ-デコーダ構造を採用しており、エンコーダ部分ではSwin Transformerを用いて重要な特徴を効率的に抽出する。このプロセスでは、転移学習（Transfer Learning）の手法を採用し、Vision Transformerの層をエンコーダ・トランスフォーマーに変換し、CNNデコーダにシームレスに統合する。これにより、入力画像からの情報損失を最小限に抑えることが可能となる。デコーダ部では、二重のデコーダを用いたマルチデコーディング技術を導入し、二つの異なる注目マップを生成する。これらのマップは、追加のCNNモデルを介して統合され、一つの出力マップとして生成される。訓練済みのMDS-ViTNetモデルは、複数のベンチマークにおいて最先端の性能を達成した。今後、さらなる研究協力を促進するため、本研究で開発したコード、モデルおよびデータセットを公開する予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Polezhaev Ignat Goncharenko Igor Iurina Natalya

概要

本稿では、視覚的注目度予測や眼動追跡の精度向上を目的として、新たな手法であるMDS-ViTNet（Multi Decoder Saliency by Vision Transformer Network）を提案する。このアプローチは、マーケティング、医療、ロボティクス、小売業など多様な分野における応用可能性を有している。従来のImageNetベースのバックボーンにとらわれず、Vision Transformer（ViT）を活用したネットワーク構造を提案する。本フレームワークはエンコーダ-デコーダ構造を採用しており、エンコーダ部分ではSwin Transformerを用いて重要な特徴を効率的に抽出する。このプロセスでは、転移学習（Transfer Learning）の手法を採用し、Vision Transformerの層をエンコーダ・トランスフォーマーに変換し、CNNデコーダにシームレスに統合する。これにより、入力画像からの情報損失を最小限に抑えることが可能となる。デコーダ部では、二重のデコーダを用いたマルチデコーディング技術を導入し、二つの異なる注目マップを生成する。これらのマップは、追加のCNNモデルを介して統合され、一つの出力マップとして生成される。訓練済みのMDS-ViTNetモデルは、複数のベンチマークにおいて最先端の性能を達成した。今後、さらなる研究協力を促進するため、本研究で開発したコード、モデルおよびデータセットを公開する予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています