8ヶ月前

概要

マルチモーダル表現の学習は、現実世界におけるロボット応用に向けた重要なステップであり、その目的でさまざまなマルチモーダル統合モデルが開発されてきた。しかし、現存するモデルの多くが連合学習（joint training）に基づく目的関数を採用していることから、各モーダルの表現学習が不十分になる傾向があることが観察される。この問題を「モーダルフェイルヤー（Modality Failure）」と命名し、その原因としてモーダル間の不均衡性および統合手法における共通目的関数がもたらす暗黙のバイアスが、各モーダルのエンコーダーによる十分な特徴学習を阻害していると仮説を立てた。これに対応するため、本研究では新たなマルチモーダル学習手法「ユニモーダルティーチャー（Uni-Modal Teacher）」を提案する。この手法は、統合目的関数とユニモーダル蒸留（uni-modal distillation）を組み合わせることで、モーダルフェイルヤー問題に効果的に対処する。実験の結果、本手法は各モーダルの表現能力を著しく向上させるだけでなく、全体的なマルチモーダルタスク性能も向上させることを示した。また、本手法は多数のマルチモーダル統合アプローチに効果的に拡張可能である。VGGSound音声・視覚分類タスクにおいて3%以上の性能向上を達成し、NYU Depth V2のRGB-D画像セグメンテーションタスクにおいても性能改善を確認した。

ソースPDF