17日前

DiffusionRet:拡散モデルを用いた生成型テキスト-動画検索

Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu, Li Yuan, Jie Chen
DiffusionRet:拡散モデルを用いた生成型テキスト-動画検索
要約

既存のテキスト-動画検索手法は、本質的に条件付き尤度 ( p(\text{候補}| \text{クエリ}) ) を最大化することに注力する判別モデルに帰着している。このアプローチは直感的ではあるが、背後にあるデータ分布 ( p(\text{クエリ}) ) を無視するという課題を抱えており、分布外(out-of-distribution)のデータを検出することが困難である。この限界を克服するため、本研究では生成モデルの視点からこの課題に取り組み、テキストと動画の関係性をそれらの同時確率 ( p(\text{候補}, \text{クエリ}) ) としてモデル化する。これにより、ノイズから徐々に同時分布を生成するプロセスとして検索タスクを定式化した、拡散過程に基づくテキスト-動画検索フレームワーク(DiffusionRet)を提案する。学習段階では、生成と判別の両面からDiffusionRetを最適化する:生成器は生成損失により最適化され、特徴抽出器は対比学習損失(contrastive loss)により学習される。このようにして、DiffusionRetは生成モデルと判別モデルの長所を巧みに統合している。本手法は、MSRVTT、LSMDC、MSVD、ActivityNet Captions、DiDeMoの5つの代表的なテキスト-動画検索ベンチマークにおいて広範な実験を行い、優れた性能を示した。さらに、特に変更を加えずに、分布外の検索設定においても良好な結果を達成している点が注目される。本研究は、関連分野における根本的な知見を提供すると確信している。実装コードは以下のURLで公開されている:https://github.com/jpthu17/DiffusionRet。

DiffusionRet:拡散モデルを用いた生成型テキスト-動画検索 | 最新論文 | HyperAI超神経