HyperAIHyperAI

Command Palette

Search for a command to run...

W2VV++:即時動画検索における完全なディープラーニング

Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong

概要

アドホック動画検索(Ad-hoc Video Search: AVS)は、マルチメディア検索分野において重要な課題でありながら、依然として大きな挑戦を伴う問題である。従来のコンセプトベースの手法とは異なり、本研究ではクエリ表現学習を端末から端末まで(end-to-end)行う深層学習手法を提案する。本手法の特徴は、コンセプトモデリングやマッチング、選択といった前処理を一切不要とする点にあり、柔軟性と効率性を兼ね備えている。本手法の基盤となるのは、視覚情報からテキストへのマッチングを目的として以前に開発されたWord2VisualVec(W2VV)の進化形であるW2VV++である。W2VV++は、より優れた文表現戦略と改良された三重項ランキング損失(triplet ranking loss)を導入することで、W2VVを強化したものである。これらの単純な改良により、性能は著しく向上している。TRECVID 2018 AVSタスクへの参加およびTRECVID 2016・2017データに対する後向き実験の結果から、本手法の最良単一モデルは、全体の推定平均精度(inferred Average Precision: infAP)0.157を達成し、既存の最先端手法を上回ることが確認された。さらに、ラテアベレージ融合(late average fusion)を用いたモデルアンサンブルにより、infAPは0.163まで向上し、さらなる性能向上が可能であることが示された。本研究により、W2VV++を用いてアドホック動画検索の新たなベースラインが確立された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
W2VV++:即時動画検索における完全なディープラーニング | 記事 | HyperAI超神経