7ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic

概要

大規模な視覚的な場所認識の問題に取り組んでおり、この課題は与えられたクエリ写真の位置を迅速かつ正確に認識することです。本研究では以下の3つの主要な貢献を示します。第一に、場所認識タスクのために直接エンドツーエンドで学習可能な畳み込みニューラルネットワーク（CNN）アーキテクチャを開発しました。このアーキテクチャの主な構成要素であるNetVLADは、「ローカルに集約された記述子のベクトル（Vector of Locally Aggregated Descriptors, VLAD）」という画像検索で一般的に使用される画像表現から着想を得た新しい汎用VLAD層です。この層は任意のCNNアーキテクチャに容易に組み込むことができ、バックプロパゲーションによる学習が可能です。第二に、Google Street View Time Machineからダウンロードした同じ場所を時間的に描写した画像を使用して、アーキテクチャのパラメータをエンドツーエンドで学習するための新しい弱教師付きランキング損失に基づく学習手順を開発しました。第三に、提案されたアーキテクチャが2つの挑戦的な場所認識ベンチマークにおいて非学習型の画像表現や既製のCNN記述子よりも大幅に優れていることを示し、標準的な画像検索ベンチマークにおいても現行の最先端のコンパクトな画像表現よりも性能が向上していることを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic

概要

大規模な視覚的な場所認識の問題に取り組んでおり、この課題は与えられたクエリ写真の位置を迅速かつ正確に認識することです。本研究では以下の3つの主要な貢献を示します。第一に、場所認識タスクのために直接エンドツーエンドで学習可能な畳み込みニューラルネットワーク（CNN）アーキテクチャを開発しました。このアーキテクチャの主な構成要素であるNetVLADは、「ローカルに集約された記述子のベクトル（Vector of Locally Aggregated Descriptors, VLAD）」という画像検索で一般的に使用される画像表現から着想を得た新しい汎用VLAD層です。この層は任意のCNNアーキテクチャに容易に組み込むことができ、バックプロパゲーションによる学習が可能です。第二に、Google Street View Time Machineからダウンロードした同じ場所を時間的に描写した画像を使用して、アーキテクチャのパラメータをエンドツーエンドで学習するための新しい弱教師付きランキング損失に基づく学習手順を開発しました。第三に、提案されたアーキテクチャが2つの挑戦的な場所認識ベンチマークにおいて非学習型の画像表現や既製のCNN記述子よりも大幅に優れていることを示し、標準的な画像検索ベンチマークにおいても現行の最先端のコンパクトな画像表現よりも性能が向上していることを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています