これらのデータセットとモデルを食べて、AI と踊ることを学び、TensorFlowBoys になりましょう

7年前

深層学習アルゴリズム GAN を使用すると、動きの追跡と移行を実現し、キャラクターの動きを他の人にコピーし、ダンスの分野に応用することで、誰もがダンスの王様になれるようになります。

最近では『これ！「It's Street Dance」の第 2 シーズンが開始され、再び全国的なダンストレンドに火がつきました。

最初の放送から間もなく、このエネルギーの高い番組は Douban で 9.6 という高スコアを獲得しました。競技中のダンサーたちの素晴らしいパフォーマンスに、画面の前の観客は「熱い！」「すごい！」と声を上げ、音楽に合わせて思わず震えるほどでした。

しかし、本当に自分の力で現実と想像の間を飛び越えたいのであれば、次のように推定されます。羅志祥が何人か欠けています。私の想像では、私は次のように見えます。

しかし、実際には次のようになります。

ダンサーの場合、その動きはヒップホップ、ブレイキング、ロッキングなどと呼ばれますが、メロンを食べる人にとっては、震えたり、転がったり、指をさしたり...

もしかしたら、この人生にヒップホップダンスを踊る機会はないのでしょうか？スクエアダンスをしましょう...

等！まだ急いで諦めないでください。カリフォルニア大学バークレー校の何人かの偉人が、あなたのダンススキルを瞬時に爆発させて次世代のダンスキングになれる AI 「秘密兵器」を開発しました。

誰でもダンスキングになれる

昨年8月、カリフォルニア大学バークレー校の研究者らは、次のタイトルの論文を発表した。「さあ、みんなで踊りましょう」論文、作る深層学習アルゴリズム GAN (Generative Adversarial Networks、敵対的生成ネットワーク) を使用すると、プロのパフォーマーの動きをコピーして誰にでも転送できます。、こうして「Do as I do」（私が踊ることを踊る）を実現します。

まずはコピーダンスの結果表示を見て雰囲気をつかんでみましょう。

**左上隅はプロのダンサー、左下隅は検出されたポーズ、中央と右は対象者にコピーされた生成されたビデオです**

ディープフェイクの顔を変える技術は以前は大ヒットしましたが、今では誰でも「ディープフェイク」ができる！この魔法の操作がどのように実装されるかを見てみましょう。

論文では次のように紹介されています。移行アクションこの方法は一般に次のステップに分かれています。

2 つのビデオがあり、1 つはアクションソースのビデオ、もう 1 つはターゲットパーソンのビデオです。
次に、アルゴリズムを使用してソースビデオからプロのダンサーの動きを検出し、それに応じて動くスティックフィギュアフレームを作成します。
次に、2 つのトレーニング済み敵対的生成ネットワーク (GAN) の深層学習アルゴリズムを使用して、対象者のすべての画像を作成し、より鮮明で現実的なビデオ画像を生成します。

最終的な結果は、このシステムは、プロのダンサーの身体の動きをアマチュアのダンサーの身体の動きにマッピングすることができます。。動作を模倣するだけでなく、人の声や表情を完璧に捏造できる。

ブラックテクノロジーの背後にある原理を明らかにする

このブラックテクノロジーの具体的な原理は次のとおりです。アクション移行パイプラインは 3 つの部分に分かれています。

1. 姿勢検出:

チームは既存のものを使用します姿勢検出モデル OpenPose (CMU オープンソースプロジェクト)、ソースビデオから体、顔、手のポーズのキーポイントを抽出します。このステップの本質は、体の姿勢をエンコードし、体の形状などの情報を無視することです。

**ダンサーのポーズ検出を実行し、スティックフィギュアグラフィックスにエンコードします。**

2. 世界的な態度の標準化:

指定されたフレーム内でのソースキャラクタとターゲットキャラクタの体型と位置の差を計算し、ソースポーズグラフィックをターゲットキャラクタの体型と位置に合わせたポーズグラフィックに変換します。

3. 標準化された姿勢グラフィックスから、対象者のイメージを推測します。

このモデルは、敵対的生成ネットワークモデルを使用して、正規化されたポーズパターンから対象人物の画像へのマッピングを学習するようにトレーニングされます。

システムの開発中、チームは NVIDIA TITAN Xp の GeForce GTX 1080 Ti GPU と、トレーニングと推論のために PyTorch によって高速化された cuDNN を使用しました。

画像変換段階ではNVIDIAが開発した敵対的トレーニング画像翻訳を使用 pix2pixHD 建築。 pix2pixHD のグローバルジェネレーターを介して顔の残差を予測します。彼らは顔に単一の 70×70 PatchGAN 識別子を使用します。

トレーニング中、ソースビデオデータとターゲットビデオデータは若干異なる方法で収集されます。ターゲットビデオの品質を保証するために、携帯電話のカメラを使用して、ターゲット被写体のリアルタイム映像を 120 フレーム/秒でキャプチャし、各ビデオは少なくとも 20 分間続きます。

ソースビデオについては、適切な姿勢検出結果を取得することのみが必要です, そのため、オンラインのダンスパフォーマンスの高品質ビデオを使用してください。

このシステムの成果については、研究者らはまだ完璧ではないとしている。生成されるビデオのほとんどは依然として非常にリアルですが、場合によっては、体の特定の部分が消えるなどのエラーが発生することがあります。「溶ける」などの異常現象。

また、このアルゴリズムは衣服をエンコードしていないため、動きに合わせて衣服がはためくビデオを生成することはできません。、ターゲットはタイトな服を着なければなりません。

これらの欠点を除けば、このテクノロジーは実に興味深いものです。

この AI ツールを使用すると、たとえダンスの初心者であっても、手足が硬くて調整できなくても、アーロンクォック、ショーショー、またはその他の好きなダンサーのような「ダンスマスター」になれるでしょう。ジャクソンのムーンウォークもあなたにとっては朝飯前です。

しかし、ダンスの夢を持っているのはバークレー校のチームだけではありません。 Google は AI とダンスの組み合わせについても多くのことを考えています。

Google AI が新しいダンスルーチンを作成

昨年末、Google Arts and Culture のテクニカルプログラムマネージャーであるダミアンヘンリーは、英国の振付師ウェインマクレガーと協力して、特定のスタイルのダンスを自動生成できる振り付けツール。

マクレガー氏はプリマス大学で科学の名誉博士号を取得しており、常に科学とテクノロジーに興味を持っています。彼は 25 年間のダンスビデオを振り返りながら、パフォーマンスを新鮮に保つためにテクノロジーを利用できないかと考えました。そこで彼は、テクノロジーを利用して新しいダンスコンテンツを継続的に作成する方法についてヘンリーにアドバイスを求めました。

ヘンリーは科学ウェブサイトの投稿からアイデアを得ました。この投稿では、ニューラルネットワークを使用して、前の手紙の筆跡に基づいて次の手紙を予測する方法を紹介します。

それで、彼はは、特定の動きを予測できる同様のアルゴリズムを提案しました。ダンサーのポーズをビデオでキャプチャし、最も可能性の高い次のダンスの動きを生成し、リアルタイムで画面に表示します。見せる。

このアルゴリズムでは、人々の服装も無視され、俳優の特定の姿勢のキーポイントのみをキャプチャして棒人間モデルを導き出します。

マクレガーと彼のダンサーのダンスのビデオを供給すると、AI が踊り方を学習し、生成されたダンススタイルはマクレガーのダンススタイルに非常に似ていました。

ただし、ダンスの創造性という点では、人工知能にはまだ一定の制限があります。この Google AI ツールは、「見たことのない」アクションを発明することはできません。それはただ予測する学習した動作の中で最も起こりやすい動作。

また、この技術はハイブリッドスタイルの振り付けも提供できます、たとえば、マクレガーのビデオにブラジルのサンバビデオが挿入されると、AI がまったく新しいミックスダンスを考え出す可能性があります。 ヘンリーは、学習の源は依然として人間によってインプットされているため、異なるダンスを披露することを心配していません。の。

AI 姿勢追跡は単なる「ダンスの夢」ではありません

「ダンス」に役立つテクノロジーをたくさん見たので、すでに試してみたいと思っていますか?

ダンスAIは、動きたくない人、動きたくない人でも、より自由に、より簡単に動き、ダンスやエクササイズの楽しさを体験することができます。しかし、その背後にあるテクノロジーはボルト一楽だけではありません。

サポートダンス AIによる姿勢推定、その背後には巨大なエネルギーが隠されており、それは私たちが体の動きをより正確に完了するのに役立ちます。 3D フィットネス学習、スポーツ姿勢矯正、患者リハビリテーショントレーニング、さらには仮想フィッティングや写真姿勢矯正など、新たなブレークスルーをもたらします。

この発展に従って、機械は私たちのことをますますよく知り、私たちの身体的特徴や行動パターンにますます詳しくなり、それによって私たちが自分自身をよりよく理解するのに役立ちます。

さて、それについては今は話さないでください、私は AI と一緒にダンスを学ぶつもりです。一緒に行きませんか？

クリックすると原文が読めます

これらのデータセットとモデルを食べて、AI と踊ることを学び、TensorFlowBoys になりましょう

7年前

本当のゴシップ

最近では『これ！「It's Street Dance」の第 2 シーズンが開始され、再び全国的なダンストレンドに火がつきました。

しかし、実際には次のようになります。

もしかしたら、この人生にヒップホップダンスを踊る機会はないのでしょうか？スクエアダンスをしましょう...

誰でもダンスキングになれる

まずはコピーダンスの結果表示を見て雰囲気をつかんでみましょう。

論文では次のように紹介されています。移行アクションこの方法は一般に次のステップに分かれています。

2 つのビデオがあり、1 つはアクションソースのビデオ、もう 1 つはターゲットパーソンのビデオです。
次に、アルゴリズムを使用してソースビデオからプロのダンサーの動きを検出し、それに応じて動くスティックフィギュアフレームを作成します。
次に、2 つのトレーニング済み敵対的生成ネットワーク (GAN) の深層学習アルゴリズムを使用して、対象者のすべての画像を作成し、より鮮明で現実的なビデオ画像を生成します。

ブラックテクノロジーの背後にある原理を明らかにする

このブラックテクノロジーの具体的な原理は次のとおりです。アクション移行パイプラインは 3 つの部分に分かれています。

1. 姿勢検出:

2. 世界的な態度の標準化:

3. 標準化された姿勢グラフィックスから、対象者のイメージを推測します。

システムの開発中、チームは NVIDIA TITAN Xp の GeForce GTX 1080 Ti GPU と、トレーニングと推論のために PyTorch によって高速化された cuDNN を使用しました。

これらの欠点を除けば、このテクノロジーは実に興味深いものです。

Google AI が新しいダンスルーチンを作成

このアルゴリズムでは、人々の服装も無視され、俳優の特定の姿勢のキーポイントのみをキャプチャして棒人間モデルを導き出します。

AI 姿勢追跡は単なる「ダンスの夢」ではありません

「ダンス」に役立つテクノロジーをたくさん見たので、すでに試してみたいと思っていますか?

さて、それについては今は話さないでください、私は AI と一緒にダンスを学ぶつもりです。一緒に行きませんか？

クリックすると原文が読めます

Command Palette

これらのデータセットとモデルを食べて、AI と踊ることを学び、TensorFlowBoys になりましょう

誰でもダンスキングになれる

ブラックテクノロジーの背後にある原理を明らかにする

Google AI が新しいダンス ルーチンを作成

AI 姿勢追跡は単なる「ダンスの夢」ではありません

Command Palette

これらのデータセットとモデルを食べて、AI と踊ることを学び、TensorFlowBoys になりましょう

誰でもダンスキングになれる

ブラックテクノロジーの背後にある原理を明らかにする

Google AI が新しいダンス ルーチンを作成

AI 姿勢追跡は単なる「ダンスの夢」ではありません

関連 ニュース

ジェンセン・フアンの最新講演：5つのイノベーション、初めて公開されたRubinのパフォーマンスデータ、エージェント/ロボット/自動運転/AI4Sを網羅した多様なオープンソース

CUDA の初期チーム メンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミング エコシステムの競争環境を再形成できるでしょうか?

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

MIT と他の研究者は、20,000 種類を超える配合に基づいて拡散モデルを使用して材料合成を計画し、シリコンとアルミニウムの比率が 19 にも達する新しいゼオライト材料の開発に成功しました。

NVIDIA と他の企業は、100 万種の数十億の遺伝子に基づいて EDEN シリーズのモデルを構築し、最先端 (SOTA) のゲノムおよびタンパク質予測機能を実現しました。

2026年は米中AI競争の転換点となるだろうか？米国の規制論理の転換を背景に、巨大IT企業による大規模なコンピューティングパワーの賭けは続いている。

実践体験 | HyperAIクラウドコンピューティングプラットフォームに基づく要素ごとの演算子最適化の実践

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

Command Palette

これらのデータセットとモデルを食べて、AI と踊ることを学び、TensorFlowBoys になりましょう

誰でもダンスキングになれる

ブラックテクノロジーの背後にある原理を明らかにする

Google AI が新しいダンス ルーチンを作成

AI 姿勢追跡は単なる「ダンスの夢」ではありません

関連 ニュース

ジェンセン・フアンの最新講演：5つのイノベーション、初めて公開されたRubinのパフォーマンスデータ、エージェント/ロボット/自動運転/AI4Sを網羅した多様なオープンソース

CUDA の初期チーム メンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミング エコシステムの競争環境を再形成できるでしょうか?

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

MIT と他の研究者は、20,000 種類を超える配合に基づいて拡散モデルを使用して材料合成を計画し、シリコンとアルミニウムの比率が 19 にも達する新しいゼオライト材料の開発に成功しました。

NVIDIA と他の企業は、100 万種の数十億の遺伝子に基づいて EDEN シリーズのモデルを構築し、最先端 (SOTA) のゲノムおよびタンパク質予測機能を実現しました。

2026年は米中AI競争の転換点となるだろうか？米国の規制論理の転換を背景に、巨大IT企業による大規模なコンピューティングパワーの賭けは続いている。

実践体験 | HyperAIクラウドコンピューティングプラットフォームに基づく要素ごとの演算子最適化の実践

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

関連 ニュース

ジェンセン・フアンの最新講演：5つのイノベーション、初めて公開されたRubinのパフォーマンスデータ、エージェント/ロボット/自動運転/AI4Sを網羅した多様なオープンソース

CUDA の初期チーム メンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミング エコシステムの競争環境を再形成できるでしょうか?

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

MIT と他の研究者は、20,000 種類を超える配合に基づいて拡散モデルを使用して材料合成を計画し、シリコンとアルミニウムの比率が 19 にも達する新しいゼオライト材料の開発に成功しました。

NVIDIA と他の企業は、100 万種の数十億の遺伝子に基づいて EDEN シリーズのモデルを構築し、最先端 (SOTA) のゲノムおよびタンパク質予測機能を実現しました。

2026年は米中AI競争の転換点となるだろうか？米国の規制論理の転換を背景に、巨大IT企業による大規模なコンピューティングパワーの賭けは続いている。

実践体験 | HyperAIクラウドコンピューティングプラットフォームに基づく要素ごとの演算子最適化の実践

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

関連 ニュース

ジェンセン・フアンの最新講演：5つのイノベーション、初めて公開されたRubinのパフォーマンスデータ、エージェント/ロボット/自動運転/AI4Sを網羅した多様なオープンソース

CUDA の初期チーム メンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミング エコシステムの競争環境を再形成できるでしょうか?

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

MIT と他の研究者は、20,000 種類を超える配合に基づいて拡散モデルを使用して材料合成を計画し、シリコンとアルミニウムの比率が 19 にも達する新しいゼオライト材料の開発に成功しました。

NVIDIA と他の企業は、100 万種の数十億の遺伝子に基づいて EDEN シリーズのモデルを構築し、最先端 (SOTA) のゲノムおよびタンパク質予測機能を実現しました。

2026年は米中AI競争の転換点となるだろうか？米国の規制論理の転換を背景に、巨大IT企業による大規模なコンピューティングパワーの賭けは続いている。

実践体験 | HyperAIクラウドコンピューティングプラットフォームに基づく要素ごとの演算子最適化の実践

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

Google AI が新しいダンスルーチンを作成

Google AI が新しいダンスルーチンを作成

関連ニュース

CUDA の初期チームメンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミングエコシステムの競争環境を再形成できるでしょうか?

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

Google AI が新しいダンスルーチンを作成

関連ニュース

CUDA の初期チームメンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミングエコシステムの競争環境を再形成できるでしょうか?

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

CUDA の初期チームメンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミングエコシステムの競争環境を再形成できるでしょうか?

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

CUDA の初期チームメンバーは、cuTile が Triton を「特にターゲットにしている」ことを厳しく批判しました。Tile パラダイムは、GPU プログラミングエコシステムの競争環境を再形成できるでしょうか?

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。