数千万の GAN があり、安全第一

6 年前

見出し

情報

Dao Wei

特色图像

超神経質で

敵対的生成ニューラル ネットワーク (GAN) は、ディープ ラーニング (ML) の次の開発の鍵であり、多くの分野での応用が期待されています。

しかし、GAN の繁栄には、依然としてハードウェアとフレームワークという 2 つの山を越える必要があります。

何?ガン

GAN の開発においては、まず画像・映像分野で市場を占有し、その後他の分野に移行する戦略が考えられます。たとえば、シミュレートされたデータ セットは、HPC (ハイ パフォーマンス コンピューター クラスター) アプリケーションで使用できます。

ただし、インフラストラクチャとソフトウェアの共同開発がいつより多くのアプリケーションに適応できるようになるかはまだ不明です。それでも、GAN の役割と影響は非常に顕著であり、目的の作業を完了し、AI の次の段階に備えるには十分です。

すでに多くの成熟した ML 手法があるのに、なぜ GAN をまだ研究する必要があるのかと疑問に思う人もいるかもしれません。

実際、GAN は、参照やサンプルに基づいて出力を生成する単純な認識および分類方法を上回る結果を達成しており、その結果は並外れたものです。

機能的には、GAN は他の畳み込みニューラル ネットワークと非常に似ています。 GAN の弁別器のコア計算は基本的な画像分類器に似ていますが、ジェネレーターはコンテンツを生成する畳み込みニューラル ネットワークに似ています。

GAN は、生成ネットワークと判別ネットワークという 2 つの深層学習ネットワークで構成されています。これらは実際には ML の既存の概念ですが、新しい方法で連携しており、これが GAN の独自性でもあります。

グラフィックス作業を行う場合、ジェネレーターはデータセットを取得し、それを画像に変換しようとします。たとえば、データから画像を合成し、それをディスクリミネーターに渡します。ディスクリミネーターは、その画像が「本物」であるかどうかを判断します。 「か否か。」か「鍛造」か。

ジェネレーターはディスクリミネーターのフィードバックから弱点を学習し、両者は相互ゲームでより良い結果を達成します。ただし、この方法ではトレーニングに必要な計算がより複雑になり、新たな困難にも直面します。

GAN が直面する困難

GAN のパフォーマンスは優れていますが、それを最大限に活用するのは簡単ではありません。たとえば、モデルの崩壊が発生し、トレーニングとフィードバックのプロセスが不安定になります。

もう 1 つの一般的な問題は、対立している一方のネットワークが他方のネットワークを圧倒する場合です。たとえば、ジェネレータはディスクリミネータが識別できない画像を生成します。この場合、ジェネレータは適切なフィードバックを得ることができず、効果的に学習することができません。

幸いなことに、バランスの問題は時間内に調整できますが、ハードウェアに対する高い要件に対処するのはそれほど簡単ではありません。

単純なニューラル ネットワークのトレーニングにはある程度のコンピューティング能力が必要なため、GAN はシステム、特にメモリ要件に負荷をかけます。

CPU だけを搭載したマシンでこのような作業を行うのは困難ですが、GPU を使用する場合は、現実的にはリソースが限られているという問題に直面する必要があります。

Nvidia の応用 ML 担当バイスプレジデント、ブライアン カタンザロ氏は、「GAN はより高いコンピューティング能力を必要とし、インフラストラクチャも追いつきつつあります。GAN を使用する場合、これらのモデルは非常に大きく、多数のモデルがあるため、より多くのデータ トラフィックが必要になります」と述べています。そのため、トレーニングには多くの計算能力とメモリが必要になります。」

「トレーニングする場合、多くの GAN はメモリの制約を受けます。モデルは通常非常に大きいため、1 つまたは 2 つのバッチ サイズのみでモデルをトレーニングするだけでも、GPU メモリ全体がいっぱいになってしまいます。」

優れたサドルを備えた優れた GAN

カタンツァーロ氏は、「トレーニング時に大規模なシステムを構築することは有益であり、バッチを複数の GPU に分割することも有益です。しかし、これには、ビデオ用の DGX-1 NVlink で使用されているような強力な GPU 中心の相互接続が必要です」と付け加えました。 GAN」。

この点に関して、ゲーム用のインタラクティブビデオ生成に関する彼らの研究は、ほぼリアルタイムで環境を動的に生成できる GAN の優れたパフォーマンスを実証しています。

同氏はまた、DGX-2についても触れ、「一度完成すれば、我々の作業は加速するだろう」と語った。

ビデオ合成に GAN を適用する Nvidia の取り組みでは、大規模なモデルを GPU で実行するという問題が特に顕著です。

「私たちはグラフィックスの問題を重視しており、現実世界のビデオでトレーニングすることで仮想世界を簡単に作成できるコンテンツを作成するためのより良い方法として、グラフィックスを使用してビデオ ゲームを生成することに興味を持っています。」

「しかし、このプロセスは、現在の画像を生成するだけでなく、一連の関連画像も生成するため、特にビデオ GAN では非常に複雑です。これには、より優れたメモリとコンピューティング パフォーマンスが必要です。」

たとえば、私たちは最近、創薬における GAN の可能性について話しました。敵対的ネットワークに加えて、強化学習コンポーネントと弁別器からのフィードバックも必要であることが判明し、これによりインフラストラクチャの要件が増加します。

製薬スタートアップの Insilico Medicine は、自社のモデルをシステムに適合させるために高性能 GPU クラスターを使用しており、ある程度の成功を収めていますが、さらに前進するには、さらに多くのコンピューティング能力、より多くのメモリ、より優れたメモリ帯域幅が必要です。

GAN の未来

「GAN は、どのような規模であっても、画像やビデオの生成を超えて、学術、技術、または企業の領域で使用できますが、広範な使用例の前に、ハードウェアとソフトウェアの両方の制限に対処する必要があります。これは現時点ではまだ初期段階です。」

「テキストやオーディオ アプリケーションなど、他の場所でも GAN を使用する試みがありましたが、結果は画像やビデオほど良くありませんでした。」

これは、試す前に何かが機能することを証明するのは難しいことを示しています。

「今のところ、GAN は視覚分野で大きな成功を収めており、それが医療画像処理において優位に立っている理由です。」とカタンツァーロ氏は付け加えました。

より多くの企業がゲームやコンテンツ生成において画像やビデオを超えた幅広いアプリケーション空間を探索できることが期待されていますが、プラットフォームの両方の側面がより成熟する必要があります。

GAN の研究では、日々新しいアイデアや進歩があるようですが、ハードウェア上で効率的に実行できるアプリケーションが不足しているため、ありがたい状況が生まれます。

しかし、AI の発展を見れば、継続的な最適化と調整により、短期的には遠く離れたテクノロジーが私たちの視野に入る可能性があることがわかります。

GAN の時代が来た

GPU が主要なトレーニング プラットフォームであり、Nvidia が GAN に関する先駆的な取り組みを主導しているため、たとえ最高の DGX システムを使用していても、これは依然として困難なトレーニング タスクです。

将来のグラフィックスやゲームに関して、強い強みを持つ Nvidia がゲームのルールを変える可能性があることを予測するのは難しくありません。

しかし、GPU がコンシューマー ゲーム デバイスからスーパーコンピューターのパワー アクセラレーターへと飛躍するのを見ると、おそらく私たちが学べることは、単に優れたゲーム エクスペリエンスをもたらすだけという理由だけでテクノロジーを軽視することはできないということです。

全体として、新年には、ビデオや画像の作成に加えて、より多くの分野で GAN が応用されることを期待しています。

ただし、GAN を使用する場合は、最初に十分なハードウェア環境を準備する必要がある場合があります。だから、それについては話さないで、GAN に行きましょう!幸運を祈ります~