HyperAIHyperAI

Command Palette

Search for a command to run...

多モーダルクラスタリングネットワークを用いたラベルなし動画からの自己監督学習

概要

マルチモーダル自己監督学習は、人間の監督なしで大規模なネットワークを訓練するだけでなく、さまざまなモーダル間でのデータ検索と取得も可能にするため、ますます注目を集めています。本稿では、異なるモーダル間で表現を共有するとともに、意味的に類似したインスタンスのグループ化を強制する共通のマルチモーダル埋め込み空間を学習する自己監督訓練フレームワークを提案します。この目的のために、インスタンスレベルのコントラスト学習の概念を訓練パイプライン内のマルチモーダルクラスタリングステップにより拡張し、モーダル間での意味的類似性を捉えることを目指しています。得られた埋め込み空間は、未見のデータセットや異なるドメインからでもすべてのモーダル間でのサンプル検索が可能となります。我々のアプローチを評価するために、HowTo100Mデータセット上でモデルを訓練し、そのゼロショット検索能力について2つの挑戦的なドメイン(テキスト-ビデオ検索および時間的アクション局所化)で評価を行いました。4つの異なるデータセットにおいて最先端の結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています