2022 年の年次レビュー | より成熟した AI、より革新的なテクノロジー カーニバル

2 年前

情報

Jiaxin Sun

特色图像

咳が絶えない中、2022 年が終わりに近づいています。今年は AIGC が人工知能分野の最大のダークホースとなり、ScienceAI はより実用的なアプリケーションを手に入れました。絶望的な状況から生き残るテクノロジーカーニバル...この記事では、2022 年の人工知能分野における画期的な研究開発の成果を仲間と一緒に振り返ってみましょう。

データ2vec

音声、視覚、テキストの自己教師あり学習のための一般的なフレームワーク

発行機関:メタAI

発売時期:2022年1月

プロジェクトアドレス:

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec は統合されたマルチモーダル自己教師あり学習モデル、画像、テキスト、音声などを高いパフォーマンスで処理できます。

Data2vec 2.0 は 12 月 16 日にリリースされました。既存のコンピューター ビジョンの自己教師ありアルゴリズムと比較して、同じ精度で 16 倍高速です。

data2vec 2.0 原則の概要

アルファコード

競争レベルのコード生成 AI

発行機関:ディープマインド

発売時期:2022年2月

プロジェクトアドレス:

https://github.com/deepmind/code_contests

AlphaCode は、大規模な言語モデルを使用して、問題の言語的記述からコードを構築します。Codeforces チャレンジでは、AlphaCode が出場者の 46% を破りました。この研究は、『サイエンス』誌の表紙を飾っただけでなく、同誌によって今年の科学的進歩トップ 10 の 1 つにも選ばれました。

アルファコードの概要

ダル・E 2

テキストから画像への生成ツール

発行機関:OpenAI

発売時期:2022年4月

プロジェクトアドレス:https://openai.com/dall-e-2/

Dall・E 2 テキストによる説明に基づいて、よりリアルな芸術的なイメージを作成します。OpenAIが2021年にリリースしたDall・Eと比較して、Dall・E 2は4倍の解像度でよりリアルで正確な画像を生成できます。

フォトリアルなスタイルで馬に乗る宇宙飛行士Dall・E 2 生成画像例

ガトー

全能の知性

発行機関:ディープマインド

発売時期:2022年5月

プロジェクトアドレス:

https://www.deepmind.com/blog/a-generalist-agent

ガトーは万能の知性エージェントです。Atari ゲームをプレイしたり、画像を説明したり、チャットしたり、コンテキストに応じてテキスト、ジョイント トルク、その他のトークンを出力したりできます。

この一般的なモデルは、人工知能と同様のすべてのタスクを、最終的にはドメイン固有のモデル以上に解決します。

画像に 140 文字以内のコメントを追加します (オプション)

ESMフォールド

タンパク質構造予測モデル

発行機関:メタAI

発売時期:2022年7月

プロジェクトアドレス:

https://github.com/facebookresearch/esm

ESM Fold は、タンパク質配列を予測するためのモデルです。直接の高精度、エンドツーエンド、原子レベルの構造予測を可能にします。単一の入力シーケンスのみを使用し、単一のタンパク質シーケンスを調べるだけでよいため、推論が大幅に高速化されます。

ESM Foldを使用した単一配列構造予測

メイク・ア・ビデオ

テキストをもとに動画を生成するAIシステム

発行機関:メタAI

発売時期:2022年9月

プロジェクトアドレス:https://makeavideo.studio/

Make-A-Video は、テキストからビデオへの生成モデルであり、テキスト説明付きの画像を使用して一般的な説明方法を学習し、ラベルのないビデオを使用して動作方法を理解し学習します。

Make-A-Video で生成されるビデオはさまざまなスタイルがあり、テキスト復元性が高く、短いビデオを生成するための SOTA モデルです。

テキストの説明に基づいてビデオを生成する例

アルファテンソル

行列の乗算を改善して計算速度を向上させます。

発行機関:ディープマインド

発売時期:2022年10月

プロジェクトアドレス:

https://github.com/deepmind/alphatensor

AlphaTensor は、現在の最適な 4*4 行列乗算を改善し、異なるサイズの 70 以上の他の行列乗算の計算速度をさらに向上させました。この成果はNature誌の表紙に掲載されました。サイエンス誌により、今年の科学的進歩トップ 10 の 1 つに選ばれました。

AlphaTensor アーキテクチャの概要

マジック 3D

テキストから 3D コンテンツへの作成ツール

発行機関:エヌビディア

発売時期:2022年11月

プロジェクトアドレス:

https://deepimagination.cc/Magic3D/

NVIDIA が AIGC に参入、テキストの説明に基づいて 3D メッシュ モデルを生成できます。画像調整技術とテキストプロンプトベースの編集方法を組み合わせて、3D 合成を制御するための新しいアイデアを提供し、高品質の 3D メッシュ モデルの作成を可能にします。

Magic 3D は 2 段階でテキストから 3D コンテンツを作成します

チャットGPT

スーパーダイアログモデル

発行機関:OpenAI

発売時期:2022年11月

プロジェクトアドレス:

https://openai.com/blog/chatgpt/

ChatGPT のトレーニングには、InstructGPT と同じ手法である RLHF (Reinforcement Learning from Human Feedback) が使用されますが、データ収集設定がわずかに異なります。

ChatGPT は人間と同じようにチャットやコミュニケーションを行うことができ、電子メールの作成、ビデオ スクリプト、コピーライティング、翻訳、コーディングなどのタスクを完了できます。発表以来、国内外の数え切れないほどの開発者が試用に殺到し、2022 年に最も多くの開発者が参加したテクノロジー プロジェクトと言えるでしょう。

ChatGPT トレーニング プロセスの概要

点・E

テキストの説明に基づいて 3D 点群を生成

発行機関:OpenAI

発売時期:2022年12月

プロジェクトアドレス:

https://github.com/openai/point-e

Point・E を使用してテキスト プロンプトに基づいて 3D 点群を生成するプロセスは、3 つのステップに分かれています。:

1. テキスト プロンプトに基づいて合成ビューを生成する

2. 合成ビューに基づいて、粗い点群(1024 点)を生成します

3. 低解像度の点群と合成ビューに基づいて、微細な点群(4096 ポイント)を生成します

Point・E シングル カードを使用して 3D 点群を 1 分で生成することで、Text-to-3D はコンピューティングの電力消費が高い時代に別れを告げます。

画像に 140 文字以内のコメントを追加します (オプション)

冬が去り、春が来る、2023 年を想像してみましょう

2022 年も終わりに近づいていますが、2023 年は AIGC の分野でどのような新たな成果が得られるのか、未知数の年となるでしょう。 ScienceAI は、基礎科学と AI の交差点によってもたらされる課題にどのように対応するのでしょうか?チップの研究開発と国産OSからどんな新たなブレークスルーが生まれるのか?

2023 年の人工知能分野のテクノロジーとアプリケーションについての予測は何ですか? ディスカッションのためにメッセージを残してください~

Super Neuro には、今年の人工知能分野の発展を紹介する記事も多数掲載されています。クリックして読んでください ~