次のミッション:インポッシブルでは、トム・クルーズは人間のアシスタントを必要としません、AI で十分です

6 年前

殿堂

Dao Wei

特色图像

——超神経質で

映画や小説では変装はよく見られるもので、たとえば今でも大ヒットしている『ミッション:インポッシブル6』では、ベンジー(トム・クルーズの部下)が偽の顔を使って大悪党の正体を明らかにさせました。

『ミッション:インポッシブル』シリーズ全体を通して、マスクの顔の変更は標準的な動きとみなされます。

ビデオキャラクターに変装するAIマジシャン

実際には、メイクアップやカスタマイズされた顔のマスクを変更することは難しくありません。さらに、誰もが集まっている「写真なりすまし」技術もあります。

しかし、動的なキャラクター画像の顔を変更するには、強力な画像処理と置換機能が必要となるため、ビデオ作品でキャラクターの顔を変更することは依然として大きな課題です。

作品の撮影が途中で俳優を交代する必要がある場合、通常は脚本を変更するか、代役を使って特殊効果を追加します(キャラクターのシーンを編集してカットする方法もあります)が、これらの方法は費用がかかり、品質の低下につながります。

たとえば、「ワイルド・スピード 7」では、ポール・ウォーカーの予期せぬ死を補うためにいくつかの方法が使用され、撮影の複雑さは 2 倍になりました。

動画内のキャラクターを「顔を変える」ことができれば、この問題は簡単に解決できます。

機械学習アルゴリズムに基づいた顔変更プログラムである DeepFakes は、まさに AI 顔変更の魔術師です。昨年末には、ユーザーが何の抵抗感もなく動画内の登場人物を自分の好きな「アイドル」に置き換えることができる「ディープフェイク」が登場した。

しかし、このプログラムの強力な魔法により、その登場以来、人々はポルノ映画の主人公を自分の見たい人物に変えるために、プログラムの操作を使用してポルノ映画やテレビ番組の顔を変えるためによく使用されてきました。うーん…

その悪用には、侵害、プライバシー、セキュリティの問題が間もなく伴います。最終的に、ポルノビデオは違法に合成され、肖像権や名誉権を著しく侵害されていることが判明し、Twitter、PornHub、Redditなどのウェブサイトはいずれもこれとは明確な一線を画し、ディープフェイクによって合成されたコンテンツの公開禁止を発表した。 。

傍観者に追いやられたように見えるが、物語はまだ終わっていない。

ディープフェイクが復活する

DeepFakes はいくつかの主要なソーシャル ネットワーキング サイトから徹底的に批判されていますが、根絶されたわけではありません。

それに新たな息吹を与えたのは、ポルノ業界の大きな原動力でした。

カリフォルニアのポルノ映画・テレビ制作会社ノーティ・アメリカは最近、ディープフェイクを通じたプライベートカスタマイズサービスを開始した。ユーザーはお金を払うと、AV動画の登場人物の顔を変えることができる。

Naughty Americaの有料サービスでは、キャラクターの顔の変更に加えて、ビデオの背景も変更できます。短いビデオの変換には数百ドルしかかかりませんが、より難しいビデオの変換には多額の費用がかかり、中には数千ドルかかるものもあります。

この資金は、プロセッサーのコンピューティング費用の支払いに加えて、キャラクターの肖像画を使用する権利の購入にも使用されます。したがって、Naughty America は侵害問題を解決しましたが、許可された「顔」にしか変換できないという制限があります。

変換効果に関しては、Naughty America は DeepFakes をアップグレードし、顔と背景の変換中によく溶け込み、ほとんど見分けがつきません。ただし、希望する顔に変換するには、事前にユーザーがディープフェイクのトレーニングセットとして大量の表情写真や動画(もちろん、非侵害コンテンツ)をアップロードする必要があります。

セキュリティを確保するために、Naughty America は、加工された「偽」ビデオであることを示すウォーターマークをビデオに追加します。

では、このAIマジシャンはどのようにして「顔の変化」を実現しているのでしょうか?私たちはテクノロジーへの好奇心からそれを調査しただけです。 「正義の顔.jpg」

ディープフェイクの動きの内訳

DeepFakes の核心はディープ ニューラル ネットワーク モデルです。主にエンコーダ(Encoder)とデコーダ(Decoder)で構成されます。顔の変換を実行する場合、エンコーダは画像をエンコードし、デコーダを介して新しい画像を出力します。

アプリケーションのプロセスでは、画像変換の品質を確保し、変換対象を正確に特定する必要があります。 AIモデルは、元のビデオの人物の顔と置き換えられた人物の顔をそれぞれエンコードおよびデコードするため、顔を変換する際に2人の表情を1対1で照合することができます。

例を使って説明します。ここでは、アメリカのトーク番組司会者のジミー・ファロンとジョン・オリバーを被験者として取り上げ、ファロンの顔をオリバーの顔に置き換える方法を簡単に説明します。

プロセス全体は 3 つのステップに分かれています。

2 人の顔は同じエンコーダ操作を使用し、デコーダ A はファロンを出力し、デコーダ B はオリバーを出力します。

1) ファロンとオリバーをそれぞれエンコードおよびデコードすることで、モデルが複雑な画像からファロンとオリバーの表情を認識し、表情の特徴をマークできるようになります。

2) 2 つのデコーダがそれぞれ 2 人の顔を復元できるまでステップ 1) を繰り返し、同時にエンコーダに学習を通じて顔のキー情報からファロンとオリバーを区別させます。

3) 上記の手順を完了した後、デコーダ A によって出力された写真を再エンコードし、デコーダ B を直接使用して、表情の特徴に従ってファロンの顔をオリバーの顔に置き換えます。

このようにして、ファロンの顔をオリバーの顔に完全に置き換えることができます。信じられないことのように思えますが、ニューラル ネットワークの強力なデータ処理機能を使用すると、ハードウェアがチェーンを切断しない限り、これを実現できます。ただし、トレーニング セット データが限られているため、単純な式の融合効果は複雑な式の融合効果よりもはるかに優れています。

ディープフェイクの弱点

DeepFakes の融合効果は非常に優れていますが、現時点では特定の練習プロセスにいくつかの制限があるようです。

まず、DeepFakes のトレーニングには大量の画像が必要です

動画内で登場人物の顔を変更したい場合、300~2000枚の顔画像が必要になります。さらに、必要な数は、顔の表情の複雑さと、新しいキャラクターが元のビデオにどの程度一致するかによって異なります。

このように、現在の顔を変える方法は、海外で地位の高い芸能人など、ネット上に大量の写真を持っている人に適しています。したがって、ディープフェイクが全員の顔を変更することは困難です。

第二に、トレーニングに使用される写真には特徴がある必要があります。

AI モデルは、トレーニングの対象となる写真に依存します。上記の顔を変える例では、データ セットにオリバーのプロフィールの写真が不足しているため、ディープフェイクはオリバーのプロフィール写真を復元できません。 したがって、特定の表情が必要な場合は、トレーニング セット内の画像にその表情が多数含まれている必要があります。

最後に、顔を変えるモデルのトレーニングには時間と労力がかかります

現在のテクノロジーでは、ビデオの顔を変えるプロセスは高価です。

ディープフェイクで通常の顔の変更を完了するには約 48 時間かかりますが、より詳細な変装には約 72 時間のトレーニングが必要です。

さらに、モデルのトレーニングにはより高いハードウェア要件があります。 GPU を 1 時間あたり 0.50 ドルでレンタルすると、キャラクター A と B の顔を交換するだけで 36 ドルかかります (帯域幅、CPU、I/O のコストは含まれません)。結局のところコストは安くありません。

しかし、DeepFakesはかなり贅沢な使い方ができるとはいえ、Naughty Americaでは今でもお金を払っている人が多いそうですし、う~ん、やはり「性的興味」の原動力はすごいようですね。

ビデオコンテンツの顔を変えるテクノロジーの未来

テクノロジーによってコストが削減できれば、この変面マジシャンAIは大いに役立つことになるだろう。ポルノ業界はその成長を促進していますが、ポルノ会社が金儲けをするための単なるツールではありません。

ディープフェイクは、最初に述べた映画やテレビの役割の置き換えに加えて、回想録やドキュメンタリーの記録にも役割を果たすことができます。これは、特殊効果やメイクアップアーティストには不可能な、写真情報を使用して死亡したキャラクターの外観を復元します。

別の記事では、広告業界でも使用でき、有名人が退屈な広告の撮影を許可するために使用できると述べました。

もちろん、これらのアプリケーションを使用する前に、侵害、プライバシー、セキュリティ、悪用などの潜在的な問題を 1 つずつ解決する必要があります。

そこで質問は、顔を変えることができたら誰になりますか?