6ヶ月前

マルチモーダル表現

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Jongsuk Kim Hyeongkeun Lee Kyeongha Rho Junmo Kim Joon Son Chung

概要

自己教師あり音声視覚表現学習における最近の進展は、豊かで包括的な表現を捉える可能性を示している。しかし、多くの学習手法においてデータ拡張の有効性が実証されているにもかかわらず、音声視覚学習はその利点を十分に活用できていない。その理由は、拡張処理が入力ペア間の対応関係を容易に破壊してしまうためである。この課題に対処するため、本研究では等変性（equivariance）を活用した新たなフレームワーク、EquiAVを提案する。本手法は、共通の注目メカニズム（attention-based）変換予測器を用いて、等変性を音声視覚学習に拡張する。これにより、異なる拡張処理から得られた特徴を統合し、代表的な埋め込み表現を生成することが可能となり、堅牢な教師信号を提供する。特に、このアプローチは最小限の計算負荷で実現できる点が特徴である。広範なアブレーション研究および定性的な評価により、本手法の有効性が確認された。EquiAVは、さまざまな音声視覚ベンチマークにおいて、既存の手法を上回る性能を示した。実装コードは、https://github.com/JongSuk1/EquiAV にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Jongsuk Kim Hyeongkeun Lee Kyeongha Rho Junmo Kim Joon Son Chung

概要

自己教師あり音声視覚表現学習における最近の進展は、豊かで包括的な表現を捉える可能性を示している。しかし、多くの学習手法においてデータ拡張の有効性が実証されているにもかかわらず、音声視覚学習はその利点を十分に活用できていない。その理由は、拡張処理が入力ペア間の対応関係を容易に破壊してしまうためである。この課題に対処するため、本研究では等変性（equivariance）を活用した新たなフレームワーク、EquiAVを提案する。本手法は、共通の注目メカニズム（attention-based）変換予測器を用いて、等変性を音声視覚学習に拡張する。これにより、異なる拡張処理から得られた特徴を統合し、代表的な埋め込み表現を生成することが可能となり、堅牢な教師信号を提供する。特に、このアプローチは最小限の計算負荷で実現できる点が特徴である。広範なアブレーション研究および定性的な評価により、本手法の有効性が確認された。EquiAVは、さまざまな音声視覚ベンチマークにおいて、既存の手法を上回る性能を示した。実装コードは、https://github.com/JongSuk1/EquiAV にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

EquiAV：等変性を活用した音声視覚対照学習 | 記事 | HyperAI超神経