11日前

自然データにおける時系列スパースコーディングを用いた非線形分離

David Klindt, Lukas Schott, Yash Sharma, Ivan Ustyuzhaninov, Wieland Brendel, Matthias Bethge, Dylan Paiton

要約

我々は、自然主義的な動画における変化要因の非線形な分離（nonlinear disentanglement）を達成する教師なし学習モデルを構築した。従来の研究では、環境中のほとんどすべての要因が時間的に一定である条件下で、表現が分離可能であると示唆されている。その結果、この問題に対するアルゴリズムは、その性質を厳密に満たすように構築されたデータセットでのみ検証されてきたため、それらが自然なシーンに一般化するかどうかは明らかでなかった。本研究では、セグメント化された自然映像内の物体が、通常は変化量が小さい遷移を経験しつつ、まれに大きなジャンプを伴うという特徴——すなわち時系列的に疎な分布（temporally sparse distribution）の特徴——を示すことを実証した。この知見を活用し、隣接する時系列観測間に疎な事前分布（sparse prior）を導入することで、変化する要因の数に関するあらゆる仮定を必要とせずに生成要因を分離するモデル「SlowVAE」を提案する。本研究では識別可能性（identifiability）の証明を提供し、複数の既存ベンチマークデータセットにおいて、モデルが信頼性高く分離された表現を学習できることを示した。特に、現時点での最先端性能を上回る結果が得られた。さらに、自然な動的特性を持つ動画データセット（Natural SpritesおよびKITTI Masks）への一般化能力も実証した。これら2つのデータセットは、分離学習研究をより自然なデータドメインへと進展させるための新たなベンチマークとして、本研究で提供するものである。