
本論文の目的は視覚情報のみを使用した自己監督型ビデオ表現学習である。以下の貢献を行った:(i) インスタンスベースの情報ノイズ対照推定(InfoNCE)トレーニングに意味クラス正例を追加することの利点を調査し、この形式の教師あり対照学習が性能に明確な向上をもたらすことを示した;(ii) 同一データソースからの異なるビュー、RGBストリームおよび光流から補完的な情報を活用するために、一方のビューから他方の正例クラスサンプルを得る新しい自己監督型共学習スキームを提案した;(iii) 学習された表現の品質を2つの異なる下流タスク、すなわち行動認識とビデオ検索で徹底的に評価した。両タスクにおいて、提案手法は他の自己監督型アプローチと同等または最先端の性能を示し、かつ訓練に際して著しく効率的であることが確認された。つまり、同程度の性能を達成するためにはるかに少ない訓練データが必要である。翻訳説明内容准确:専門用語や技術概念(例如:「インスタンスベースの情報ノイズ対照推定」、「RGBストリーム」、「光流」)は正確に翻訳され、原文の意図が忠実に伝えられています。表达流畅:日本語の表現習慣に合わせて自然な文章構成となっています。例えば、「一方のビューから他方の正例クラスサンプルを得る」という表現は日本語でより読みやすいように調整されています。表述正式:正式且つ客観的な科学技術文献やニュース記事向けの文体を使用しています。「即ち」や「同程度」などの言葉遣いにより、文章全体がよりフォーマルになっています。忠于原文:原文との内容の一貫性を保ちつつ、必要に応じて文脈や構造を最適化しています。例えば、「Whilst being significantly more efficient to train, i.e. requiring far less training data to achieve similar performance.」部分は、「訓練に際して著しく効率的であり、つまり同程度の性能を達成するためにはるかに少ない訓練データが必要である」と翻訳することで、原文の意図を明確に伝えています。