8ヶ月前

マルチモーダル表現

ビデオ理解

オーディオ

マルチモーダル

コンピュータビジョン

Hong Jie ; Hayder Zeeshan ; Han Junlin ; Fang Pengfei ; Harandi Mehrtash ; Petersson Lars

概要

音声視覚ゼロショット学習は、訓練中に存在しないクラスから対応する音声と映像のシーケンスのペアで構成されるサンプルを分類することを目指しています。音声視覚データの分析により、これらのデータに大きな双曲性が見られることが明らかとなり、このタスクのためにより複雑な階層的なデータ構造を探索するために、双曲変換を使用して曲率に配慮した幾何学的学習を行う潜在的な利点が示唆されています。提案された手法では、双曲空間における映像特徴量と音声特徴量のクロスモダリティアライメントを組み込んだ新しい損失関数が用いられます。さらに、複数の適応的な曲率を使用した双曲射影についても検討しました。非常に困難なこのタスクに対する実験結果は、提案された双曲ゼロショット学習手法がVGGSound-GZSL、UCF-GZSL、およびActivityNet-GZSLという3つのデータセットにおいて最先进手法を上回ることを示しており、それぞれ調和平均（HM）で約3.0%、7.0%、5.3%の改善が達成されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

ビデオ理解

オーディオ

マルチモーダル

コンピュータビジョン

Hong Jie ; Hayder Zeeshan ; Han Junlin ; Fang Pengfei ; Harandi Mehrtash ; Petersson Lars

概要

音声視覚ゼロショット学習は、訓練中に存在しないクラスから対応する音声と映像のシーケンスのペアで構成されるサンプルを分類することを目指しています。音声視覚データの分析により、これらのデータに大きな双曲性が見られることが明らかとなり、このタスクのためにより複雑な階層的なデータ構造を探索するために、双曲変換を使用して曲率に配慮した幾何学的学習を行う潜在的な利点が示唆されています。提案された手法では、双曲空間における映像特徴量と音声特徴量のクロスモダリティアライメントを組み込んだ新しい損失関数が用いられます。さらに、複数の適応的な曲率を使用した双曲射影についても検討しました。非常に困難なこのタスクに対する実験結果は、提案された双曲ゼロショット学習手法がVGGSound-GZSL、UCF-GZSL、およびActivityNet-GZSLという3つのデータセットにおいて最先进手法を上回ることを示しており、それぞれ調和平均（HM）で約3.0%、7.0%、5.3%の改善が達成されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

双曲音視覚ゼロショット学習 | 記事 | HyperAI超神経