6ヶ月前

コンピュータビジョン

ビデオ処理

画像から動画生成

マルチモーダル

コンピュータビジョン

Zizhang Li Mengmeng Wang Huaijin Pi Kechun Xu Jianbiao Mei Yong Liu

概要

近年、動画の画像単位でのimplicit neural表現としてNeRVが注目を集めている。これは従来のピクセル単位のimplicit表現と比較して、優れた性能と高速な処理速度を実現しているためである。しかし、性能を向上させるためにモデルを拡大する際、ネットワーク構造内の重複パラメータが原因でモデルサイズが著しく増大するという問題が生じる。この現象の主な原因は、NeRVの定式化がフレームインデックスを入力として、空間情報と時間情報を直接出力するという結合型の構造に起因している。本論文では、この問題を解決するため、画像単位のimplicit neural表現を空間的コンテキストと時間的コンテキストに分解する新たなアプローチを提案する。この新しい定式化に基づき、我々のモデルは冗長なパラメータを大幅に削減しつつ、表現能力を維持できる。実験の結果、少ないパラメータ数で性能を著しく向上させることができ、収束速度が8倍以上に高速化することが明らかになった。コードは以下のGitHubページで公開されている：https://github.com/kyleleey/E-NeRV。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

ビデオ処理

画像から動画生成

マルチモーダル

コンピュータビジョン

Zizhang Li Mengmeng Wang Huaijin Pi Kechun Xu Jianbiao Mei Yong Liu

概要

近年、動画の画像単位でのimplicit neural表現としてNeRVが注目を集めている。これは従来のピクセル単位のimplicit表現と比較して、優れた性能と高速な処理速度を実現しているためである。しかし、性能を向上させるためにモデルを拡大する際、ネットワーク構造内の重複パラメータが原因でモデルサイズが著しく増大するという問題が生じる。この現象の主な原因は、NeRVの定式化がフレームインデックスを入力として、空間情報と時間情報を直接出力するという結合型の構造に起因している。本論文では、この問題を解決するため、画像単位のimplicit neural表現を空間的コンテキストと時間的コンテキストに分解する新たなアプローチを提案する。この新しい定式化に基づき、我々のモデルは冗長なパラメータを大幅に削減しつつ、表現能力を維持できる。実験の結果、少ないパラメータ数で性能を著しく向上させることができ、収束速度が8倍以上に高速化することが明らかになった。コードは以下のGitHubページで公開されている：https://github.com/kyleleey/E-NeRV。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています