9日前

MDMMT-2:動画検索における多ドメイン多モーダルトランスフォーマー、汎化への一歩さらに踏み出す

Alexander Kunitsyn, Maksim Kalashnikov, Maksim Dzabraev, Andrei Ivaniuta
MDMMT-2:動画検索における多ドメイン多モーダルトランスフォーマー、汎化への一歩さらに踏み出す
要約

本研究では、MSR-VTT、LSMDC、MSVD、YouCook2、TGIFの各データセットにおいて、単一モデルによって達成されたテキストから動画への検索タスクにおける新たな最先端性能を提示する。本手法では、弱教師付き動画データ、クラウドラベル付きのテキスト-画像ペア、およびテキスト-動画ペアという3種類の異なるデータソースを統合している。事前学習済みネットワークの可用性を詳細に分析することで、最適な事前知識を有するモデルを選定した。さらに、三段階の学習プロセスを導入することで、高い転移学習効率を実現しつつ、ノイズを含むデータセットを用いた学習においても、事前知識の劣化を防ぐことが可能となった。また、異なるモダリティ間の融合をより効果的に行うため、二重位置符号化(double positional encoding)を採用し、正方形でない入力に対する処理を簡便に実現する手法も提案している。