9日前

CenterCLIP:効率的なテキスト-ビデオ検索のためのトークンクラスタリング

Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang
CenterCLIP:効率的なテキスト-ビデオ検索のためのトークンクラスタリング
要約

近年、CLIPのような大規模事前学習手法は、テキスト・ビデオ検索をはじめとするマルチモーダル研究において大きな進展を遂げている。CLIPにおいては、トランスフォーマーが複雑なマルチモーダル関係をモデル化する上で不可欠な役割を果たしている。しかし、CLIPのビジョントランスフォーマーでは、離散的な視覚トークン列を生成する重要な視覚トークン化プロセスが、ビデオにおける連続的かつ類似したフレームの冗長性によって、多くの同質的なトークンを生成してしまう。これにより計算コストが著しく増大し、ウェブアプリケーションへのビデオ検索モデルの導入を阻害する要因となっている。本論文では、冗長なビデオトークンの数を削減するため、最も代表的なトークンを特定し、不要なものを除去するためのマルチセグメントトークンクラスタリング手法を提案する。フレームの冗長性は主に連続するフレーム間に生じるため、ビデオを複数のセグメントに分割し、セグメント単位でのクラスタリングを実施する。各セグメントから得られた中心トークン(center tokens)を連結して新たなトークン列を構成する一方で、元の空間時系列的関係を良好に保持する。さらに、高次元空間における決定論的メディオイド(medoid)を効率的に探索し、反復的にグループを分割する2つのクラスタリングアルゴリズムを実装した。このトークンクラスタリングおよび中心トークン選定プロセスにより、冗長な視覚トークンを削除することで、計算コストを著しく削減することに成功した。本手法は、セグメント単位でのテキスト・ビデオ表現間の意味的整合性をさらに強化し、同一セグメント内のフレーム間における空間時系列的相互作用を促進する。本手法は「CenterCLIP」と名付けられ、代表的なテキスト・ビデオベンチマークにおいて既存の最先端手法を大きく上回る性能を達成した。同時に、学習時のメモリ消費量を最大35%削減し、推論速度を最適ケースで14%向上させた。コードは以下のURLから公開されている:\href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}。