2ヶ月前

長期再帰型畳み込みネットワークによる視覚認識と説明

Jeff Donahue; Lisa Anne Hendricks; Marcus Rohrbach; Subhashini Venugopalan; Sergio Guadarrama; Kate Saenko; Trevor Darrell
長期再帰型畳み込みネットワークによる視覚認識と説明
要約

深層畳み込みネットワークを基にしたモデルが最近の画像解釈タスクで主流となっています。本研究では、時間的にも再帰的な、つまり「時間的に深い」モデルが、順序性を持つタスク(視覚的またはそれ以外)に対して有効かどうかを調査します。私たちは大規模な視覚学習に適した新しい再帰的畳み込みアーキテクチャを開発し、その価値をビデオ認識のベンチマークタスク、画像説明および検索問題、ビデオナレーション課題などで示します。現在のモデルは、順序処理において固定された空間時間受容野や単純な時間平均を前提としていますが、再帰的畳み込みモデルは空間と時間の両方の「層」で構成可能であるため、「二重に深い」と言えます。このようなモデルは、対象概念が複雑である場合や訓練データが限られている場合に有利である可能性があります。ネットワーク状態更新に非線形性を取り入れることで、長期依存関係の学習が可能です。長期RNNモデルは魅力的であり、変動長の入力(例:ビデオフレーム)を変動長の出力(例:自然言語テキスト)に直接マッピングでき、複雑な時間動態をモデル化できます。また、バックプロパゲーションによって最適化することができます。私たちの長期再帰モデルは現代の視覚convnetモデルと直接接続されており、時間動態と畳み込み感覚表現を同時に学習するための共同訓練が可能です。結果は、これらのモデルが認識や生成のために別々に定義されおよび/または最適化される最先端のモデルよりも明確な利点があることを示しています。