
要約
本稿では、時間的アノテーションによる強力な教師信号ではなく、指示文とステップの順序リストを用いた弱教師信号を活用して、日常的なタスクの各ステップに対する視覚モデルの学習を検討する。本研究の中心となる洞察は、異なるステップの学習においてモデルが共通の構成要素を共有する場合、弱教師学習がより容易になるということである。たとえば、「卵を注ぐ」というステップは、「注ぐ」と「卵」を含む他のタスクと同時に学習されるべきである。この考えを形式化するために、ステップ認識のための構成要素モデルと、指示文およびステップリストから時間的制約下でこのモデルを学習可能な弱教師学習フレームワークを提案する。これまでのデータでは構成要素の共有に関する体系的な研究が困難であったため、本研究ではクロストーク(CrossTask)と名付けた新たなデータセットを収集し、タスク間共有の評価を目的としている。実験の結果、タスク間での共有、特に構成要素レベルでの共有が性能向上に寄与することが示され、また本モデルが構成性(compositionality)の特性を持つことにより、これまでに見未曾有のタスクの解析も可能であることが明らかになった。