HyperAIHyperAI

Command Palette

Search for a command to run...

見ること、聞くこと、学ぶこと

Relja Arandjelović†, [email protected] Andrew Zisserman†,∗, [email protected]

概要

大量のラベルなし動画を視聴し、音声を聴くことで何が学べるのかという問いについて考察します。動画自体には、これまで活用されていなかった貴重な情報源が含まれています。それは、視覚ストリームと音声ストリームの対応関係です。本研究では、この情報を活用する新たな「オーディオ-ビジュアル対応(Audio-Visual Correspondence)」学習タスクを導入します。視覚ネットワークと音声ネットワークを、動画そのもの以外の追加的な監督情報なしでゼロから訓練することにより、このタスクが成功裏に解決できることを示しています。さらに興味深いことに、良好な視覚および音声表現が得られることも確認されています。これらの特徴は、2つのサウンド分類ベンチマークにおいて新しい最先端の成果を達成しており、ImageNet分類においても最先端の自己教師ありアプローチと同等の性能を発揮しています。また、ネットワークが両モダリティでの物体位置特定や細かい認識タスクを行う能力があることも示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています