7ヶ月前

コンピュータビジョン

マルチモーダル

マルチモーダル

コンピュータビジョン

and Riccardo La Grassa Nicola Landro Gianmarco Ria Ignazio Gallo

概要

現代のデジタル世界はますますマルチモーダル化している。インターネット上で画像とテキストがしばしば関連付けられていることから、この2つのモダリティを対象とした分類問題は非常に一般的である。本論文では、同一概念のテキスト情報と視覚的表現を用いたマルチモーダル分類に着目する。我々は、マルチモーダル統合を実現する2つの基本的手法を検討し、それらをスタッキング手法と組み合わせることで、このような問題に対してより効果的な処理を可能にする。本研究では、困難かつノイズが多い特性を持つマルチモーダルデータセット「UPMC Food-101」を用い、この種のマルチモーダル問題を適切に表現していることを確認した。実験結果から、提案する早期統合手法とスタッキングに基づくアプローチの組み合わせが、使用したデータセットにおいて従来の最先端技術を上回ることを示した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

コンピュータビジョン

マルチモーダル

マルチモーダル

コンピュータビジョン

and Riccardo La Grassa Nicola Landro Gianmarco Ria Ignazio Gallo

概要

現代のデジタル世界はますますマルチモーダル化している。インターネット上で画像とテキストがしばしば関連付けられていることから、この2つのモダリティを対象とした分類問題は非常に一般的である。本論文では、同一概念のテキスト情報と視覚的表現を用いたマルチモーダル分類に着目する。我々は、マルチモーダル統合を実現する2つの基本的手法を検討し、それらをスタッキング手法と組み合わせることで、このような問題に対してより効果的な処理を可能にする。本研究では、困難かつノイズが多い特性を持つマルチモーダルデータセット「UPMC Food-101」を用い、この種のマルチモーダル問題を適切に表現していることを確認した。実験結果から、提案する早期統合手法とスタッキングに基づくアプローチの組み合わせが、使用したデータセットにおいて従来の最先端技術を上回ることを示した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています