HyperAI超神経
Back to Headlines

「物理現象を学習した新AIモデル MagicTime、テキストから metamorphic ビデオを生成」

1ヶ月前

Text-to-video AI、新規変態ビデオ生成能力で進化 テキストからビデオに変換する人工知能(AI)モデルは、OpenAIのSoraのように急速に進化していますが、変態過程(例えば、木の芽生えや花の開花)のビデオを作成することが難しかったです。これには物理的な知識が必要であり、また変異が広範囲にわたるためです。 しかし、この難しさに挑む新たなモデルが開発されました。ロチェスター大学、北京大学、カリフォルニア大学サンタクルーズ校、シンガポール国立大学の研究者チームが、タイムラプスビデオから現実世界の物理学的知识を学習するAIテキスト-to-ビデオモデル「MagicTime」を開発しました。この研究成果は、IEEE Transactions on Pattern Analysis and Machine Intelligenceに発表されています。 Ph.D.学生のJinfa Huangは、「MagicTimeは、現実世界の物理的、化学的、生物的、または社会的特性をより確実にシミュレーションできる人工知能への重大な一歩です」と述べています。Huangは、ロチェスター大学コンピュータサイエンス部門の教授Jiebo Luoの監督のもとで研究を進めています。 従来のモデルでは、動画生成に限られた動きと貧弱なバリエーションしか提供できませんでした。MagicTimeの研究者は、より効果的に変態過程を模倣するために、2,000以上の詳細なキャプションとともに高品質なタイムラプスビデオデータセットを開発しました。 現行のオープンソース版U-Netでは、2秒間の512x512ピクセルのクリップ(8fps)を生成でき、拡張されたディファージョン-トランスフォーマー構造では10秒間にまで延長できます。このモデルは、生物の変態だけでなく、建築工事やパンの焼き上げの過程などもシミュレートできます。 ただし、生成された動画は視覚的に興味深いものであっても、研究者たちはより洗練されたモデルへの一歩として捉えています。黄博士は、「例えば、バイオロジストが生成的ビデオを使用して、アイデアの初步的な探索を加速できるようになることを希望しています。最終的な検証には物理的な実験が必要ですが、正確なシミュレーションが反復サイクルを短縮し、生試験の数を減らすことができます」と展望しています。 industy関連情報と会社概要 MagicTimeの開発により、AIの応用範囲が広がり、科学者以外のさまざまな分野でも利用が期待される。研究開発に尽力したロチェスター大学、北京大学、カリフォルニア大学サンタクルーズ校、シンガポール国立大学は、コンピュータビジュアルとAIの最前線で活躍している機関であり、今後の発展にも注目が集まっている。

Related Links