6ヶ月前

マルチモーダル

視覚ドキュメント検索

マルチモーダル

コンピュータビジョン

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

概要

画像に含まれるテキストは、高レベルの意味情報を含んでおり、画像理解をより豊かにするために活用できる。特に、テキストが存在するという事実は、画像検索、細分化分類、視覚的質問応答など、多様なコンピュータビジョンタスクに強力なガイド情報を提供する。本論文では、視覚的情報とテキスト情報を併用することで、両モダリティ間の内在的な関係を理解することを目的として、細分化分類および画像検索の問題に取り組む。提案するモデルの特徴は、PHOC（Positional Histogram of Characters）記述子を用いてテキスト単語のBag of Wordsを構築するとともに、テキストの形状構造を捉えるFisher Vector符号化を導入している点にある。このアプローチにより、タスクに適したより強力なマルチモーダル表現が得られ、実験結果から、細分化分類および画像検索という2つのタスクにおいて、最先端の性能を達成することが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

視覚ドキュメント検索

マルチモーダル

コンピュータビジョン

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

概要

画像に含まれるテキストは、高レベルの意味情報を含んでおり、画像理解をより豊かにするために活用できる。特に、テキストが存在するという事実は、画像検索、細分化分類、視覚的質問応答など、多様なコンピュータビジョンタスクに強力なガイド情報を提供する。本論文では、視覚的情報とテキスト情報を併用することで、両モダリティ間の内在的な関係を理解することを目的として、細分化分類および画像検索の問題に取り組む。提案するモデルの特徴は、PHOC（Positional Histogram of Characters）記述子を用いてテキスト単語のBag of Wordsを構築するとともに、テキストの形状構造を捉えるFisher Vector符号化を導入している点にある。このアプローチにより、タスクに適したより強力なマルチモーダル表現が得られ、実験結果から、細分化分類および画像検索という2つのタスクにおいて、最先端の性能を達成することが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています