HyperAIHyperAI

Command Palette

Search for a command to run...

密度推定を用いたノイズ推定による自己教師付きマルチモーダル学習

Elad Amrani Rami Ben-Ari Daniel Rotman Alex Bronstein

概要

機械学習モデルが現実世界のタスクを理解し解決できるようにするための鍵となる要因の一つは、マルチモーダルデータを活用することである。しかし、マルチモーダルデータのアノテーションは困難かつ高コストである。近年、視覚と言語を統合する自己教師付きマルチモーダル手法が提案され、アノテーションなしでマルチモーダル表現を学習する手法が実現された。しかし、これらの手法はしばしば高いノイズレベルを無視する傾向にあり、結果として最適な性能に届かない場合が多い。本研究では、マルチモーダルデータにおけるノイズ推定問題が、マルチモーダル密度推定問題に還元可能であることを示す。本手法では、異なるモダリティ間の固有の相関関係に基づき、厳密にマルチモーダル密度推定を用いたノイズ推定のブロックを提案する。このノイズ推定手法が、さまざまなマルチモーダル表現学習フレームワークに広く統合可能であり、Video Question Answering(動画質問応答)およびText-to-Video Retrieval(テキストから動画を検索)という2つの挑戦的なマルチモーダルタスクにおいて、5つの異なるベンチマークデータセットで最先端の性能と同等の結果を達成できることを実証する。さらに、実験結果を裏付ける理論的確率論的誤差バウンドを提示し、失敗ケースの分析も行う。コード: https://github.com/elad-amrani/ssml


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
密度推定を用いたノイズ推定による自己教師付きマルチモーダル学習 | 記事 | HyperAI超神経