データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

人工知能技術の急速な発展に伴い、顔認識技術はセキュリティ、決済、小売などの分野で広く使用され、生活の利便性と安全性が大幅に向上しました。しかし、特にプライバシー保護の観点から、テクノロジーの諸刃の剣の特性が徐々に明らかになり、顔認識テクノロジーの悪用が社会の注目を集めるようになりました。

CCTVの315党の報告書によると、多くの有名企業が消費者の同意なしに顔情報を違法に収集・保存し、その後のビジネス分析や精密マーケティングのために固有のIDを生成していたという。この行為は消費者のプライバシー権を著しく侵害し、広範な社会的懸念を引き起こしました。

同時に、AIを活用したディープフェイク技術であるディープフェイクは「偽物と本物を混同」し、社会秩序を混乱させ、公共の利益を侵害している。 DeepFake は、大量のトレーニングデータを使用して、多数の偽の写真、ビデオ、音声を生成します。この顔変更モードは非常に正確であるため、一般の人が微妙な違いを検出するのは困難です。多くの犯罪者がこのテクノロジーを利用して違法な利益を上げています。韓国ではこの技術を利用して不法利益を上げている犯罪者の数は22万人にも上ると言われています。

したがって、技術レベルでは、これらの改ざんされたディープフェイクビデオと画像を正確に判断するために顔認識および偽造検出技術を継続的にアップグレードすることが、緊急に解決する必要があるホットな問題です。この記事では、研究者が関連分野の研究をより効率的に行うのにある程度役立つことを期待して、一般的に使用されている顔認識およびディープフェイクのデータセットを整理してまとめます。

クリックすると、さらにオープンソースデータセットが表示されます。

https://go.hyper.ai/jpfrj

ディープフェイク/顔認識データセット

1.ディープフェイク検出ビデオ認識データセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:22.5GB

ダウンロードアドレス:https://go.hyper.ai/B8dJf

ディープフェイク検出のタスク用に特別に設計されたディープフェイク検出データセットは、操作されたメディアを識別するためのディープラーニングモデルのトレーニングと評価に使用できるビデオシーケンスの包括的なコレクションを提供します。これは、顔操作検出用の高品質のデータセットの提供を専門とする公式の FaceForensics サーバーからダウンロードされます。

2.LAV-DF マルチモーダルオーディオビジョンデータセット

発行機関：モナシュ大学、カーティン大学、インド工科大学ロパール校

発売時期：2022年

推定サイズ:23.11GB
ダウンロードアドレス:https://go.hyper.ai/wTcYE

LAV-DF は、VoxCeleb2 データセットから派生したマルチモーダル (ビデオ改ざんおよびオーディオ改ざん) データセットで、36,431 件の本物のビデオと 99,873 件のフェイクビデオを含む 136,304 件のビデオが含まれています。

3.OpenForensics 顔偽造検出データセット

発行機関：国立情報学研究所東京大学大学院総合研究科

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/64Gn2

OpenForensics データセットは、多面的な偽造検出およびセグメンテーションタスク向けに設計された、大規模かつ困難なデータセットです。このデータセットは 115,000 の野生の画像と 334,000 の顔で構成されており、すべてに豊富な顔の注釈が付いており、複数の顔の偽造検出とセグメンテーションのタスクだけでなく、顔全般に関連する一般的なタスクもサポートしているため、ディープフェイクの防止や人間の顔に関する一般的な研究に最適です。検出には大きな可能性があります。

4.ForgeryNet 顔偽造データセット

発行機関：SenseTime Research、北京郵電大学、上海人工知能研究所、北航大学ソフトウェアスクール、中国科学技術大学、南洋理工大学 S-Lab

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/h9fii

ForgeryNet データセットは、ディープフェイク分析専用に構築された大規模で包括的なベンチマークです。 290 万枚の画像と 221,247 個のビデオが含まれており、世界中の 7 つの画像レベルと 8 つのビデオレベルの偽造操作方法をカバーし、画像レベルとビデオレベルで 4 つのタスク (画像偽造分類、空間偽造位置特定、およびビデオ偽造分類) をサポートしています。そして時間的偽造ローカリゼーション。

5.FFIW10K 顔偽造データセット
発行機関：チューリッヒ工科大学コンピュータビジョン研究所、北航大学人工知能研究所、シドニー工科大学

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/rstji

このデータセットには、Youtube から収集された 10,000 の高品質のフェイクビデオが含まれており、各ビデオには本物の顔と偽の顔が含まれており、実際の複雑なシーンに近いものになります。操作プロセスは完全に自動化されており、ドメイン敵対的品質評価ネットワークによって制御されているため、データセットの拡張性が高く、人件費が低く抑えられています。

6.人間の顔のデータセット人間の顔のデータセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:113.93MB

ダウンロードアドレス:https://go.hyper.ai/Ewakl

このデータセットには、約 9.6K の顔画像、5K の実際の顔画像、および AI によって生成された 4.63K の顔画像が含まれています。

7.Glint360K 顔認識データセット

発行機関：ディープグリント

発売時期：2021年

推定サイズ:161.46GB

ダウンロードアドレス:https://go.hyper.ai/j0rrB

このデータセットは約 1,700 万の顔画像で構成され、約 360,000 のアイデンティティが含まれています。これは、大規模な顔認識モデルのトレーニングと評価のために設計されており、広く使用されています。顔認識、特に深層学習テクノロジーとの組み合わせ。

8. FaceForensics の顔偽造検出データセット

発行機関：ミュンヘン工科大学 (TUM)、ドイツ

発売時期：2020年

ダウンロードアドレス:https://go.hyper.ai/ItO9I

このデータセットには、合成シーンと実際のシーンにおける多数の顔操作が含まれており、データは YouTube プラットフォーム上のさまざまなビデオから取得され、複数の選択されたビデオクリエイターをカバーしています。このデータセットを使用することで、研究者は偽の顔画像やビデオを検出および識別するためのより正確で信頼性の高い方法を開発できます。

9.UTKFace 大規模な顔認識データセット

発行機関：アメリカの大学

発売時期：2017年

推定サイズ:1.45GB

ダウンロードアドレス:https://go.hyper.ai/8soAU

UTKFace データセットは、長い年齢範囲 (0 歳から 116 歳までの範囲) を持つ大規模な顔データセットであり、年齢、性別、人種の注釈が付いた 20,000 枚を超える顔画像が含まれています。画像のキャラクターは、姿勢、表情、照明、オクルージョン、解像度などにおいて大きく異なり、顔認識、年齢推定、年齢変化予測、ランドマークの位置決めなどのさまざまなタスクに使用できます。

10.CelebA の顔属性データセット

発行機関：香港中文大学

発売時期：2015年

推定サイズ:16.92GB

ダウンロードアドレス:https://go.hyper.ai/l0j1L

CelebFaces (CelebA) データセットは、20 万を超える有名人の画像を含む大規模な顔属性データセットです。各画像には 40 の属性による注釈が付けられ、画像は多数のポーズと背景をカバーしています。 CelebA の注釈には、10,177 のアイデンティティ、202,599 の顔画像、5 つのランドマークの場所が含まれています。

11.VGG-Face2 顔認識データセット
発行機関：オックスフォード大学

発売時期：2015年

推定サイズ:37.49GB

ダウンロードアドレス:https://go.hyper.ai/XKI0Z

VGG-Face2 Dataset は、合計 9,131 人の顔データを含む顔画像データセットです。画像はすべて Google の画像検索からのものです。データセット内の人々は、姿勢、年齢、人種、職業が大きく異なります。

上記は、HyperAI があなたのために編集した 11 の顔認識および DeepFake データセットです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、メッセージを残すか、投稿してお知らせください。

HyperAIについて Hyper.ai

HyperAI（hyper.ai）は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

最後に、学術的な共有活動をお勧めします。

Meet AI4S の 3 回目のライブブロードキャストには、上海交通大学自然科学アカデミーおよび上海国立応用数学センターの博士研究員である Zhou Ziyi 氏が招待されました。ライブブロードキャストを視聴するにはクリックして予約してください。

HyperAI

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

2年前

クリックすると、さらにオープンソースデータセットが表示されます。

https://go.hyper.ai/jpfrj

ディープフェイク/顔認識データセット

1.ディープフェイク検出ビデオ認識データセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:22.5GB

ダウンロードアドレス:https://go.hyper.ai/B8dJf

2.LAV-DF マルチモーダルオーディオビジョンデータセット

発行機関：モナシュ大学、カーティン大学、インド工科大学ロパール校

発売時期：2022年

推定サイズ:23.11GB
ダウンロードアドレス:https://go.hyper.ai/wTcYE

3.OpenForensics 顔偽造検出データセット

発行機関：国立情報学研究所東京大学大学院総合研究科

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/64Gn2

4.ForgeryNet 顔偽造データセット

発行機関：SenseTime Research、北京郵電大学、上海人工知能研究所、北航大学ソフトウェアスクール、中国科学技術大学、南洋理工大学 S-Lab

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/h9fii

5.FFIW10K 顔偽造データセット
発行機関：チューリッヒ工科大学コンピュータビジョン研究所、北航大学人工知能研究所、シドニー工科大学

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/rstji

6.人間の顔のデータセット人間の顔のデータセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:113.93MB

ダウンロードアドレス:https://go.hyper.ai/Ewakl

このデータセットには、約 9.6K の顔画像、5K の実際の顔画像、および AI によって生成された 4.63K の顔画像が含まれています。

7.Glint360K 顔認識データセット

発行機関：ディープグリント

発売時期：2021年

推定サイズ:161.46GB

ダウンロードアドレス:https://go.hyper.ai/j0rrB

8. FaceForensics の顔偽造検出データセット

発行機関：ミュンヘン工科大学 (TUM)、ドイツ

発売時期：2020年

ダウンロードアドレス:https://go.hyper.ai/ItO9I

9.UTKFace 大規模な顔認識データセット

発行機関：アメリカの大学

発売時期：2017年

推定サイズ:1.45GB

ダウンロードアドレス:https://go.hyper.ai/8soAU

10.CelebA の顔属性データセット

発行機関：香港中文大学

発売時期：2015年

推定サイズ:16.92GB

ダウンロードアドレス:https://go.hyper.ai/l0j1L

11.VGG-Face2 顔認識データセット
発行機関：オックスフォード大学

発売時期：2015年

推定サイズ:37.49GB

ダウンロードアドレス:https://go.hyper.ai/XKI0Z

HyperAIについて Hyper.ai

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

最後に、学術的な共有活動をお勧めします。

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

2年前

クリックすると、さらにオープンソースデータセットが表示されます。

https://go.hyper.ai/jpfrj

ディープフェイク/顔認識データセット

1.ディープフェイク検出ビデオ認識データセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:22.5GB

ダウンロードアドレス:https://go.hyper.ai/B8dJf

2.LAV-DF マルチモーダルオーディオビジョンデータセット

発行機関：モナシュ大学、カーティン大学、インド工科大学ロパール校

発売時期：2022年

推定サイズ:23.11GB
ダウンロードアドレス:https://go.hyper.ai/wTcYE

3.OpenForensics 顔偽造検出データセット

発行機関：国立情報学研究所東京大学大学院総合研究科

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/64Gn2

4.ForgeryNet 顔偽造データセット

発行機関：SenseTime Research、北京郵電大学、上海人工知能研究所、北航大学ソフトウェアスクール、中国科学技術大学、南洋理工大学 S-Lab

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/h9fii

5.FFIW10K 顔偽造データセット
発行機関：チューリッヒ工科大学コンピュータビジョン研究所、北航大学人工知能研究所、シドニー工科大学

発売時期：2021年

ダウンロードアドレス:https://go.hyper.ai/rstji

6.人間の顔のデータセット人間の顔のデータセット

出版プラットフォーム:カグル

発売時期：2024年

推定サイズ:113.93MB

ダウンロードアドレス:https://go.hyper.ai/Ewakl

このデータセットには、約 9.6K の顔画像、5K の実際の顔画像、および AI によって生成された 4.63K の顔画像が含まれています。

7.Glint360K 顔認識データセット

発行機関：ディープグリント

発売時期：2021年

推定サイズ:161.46GB

ダウンロードアドレス:https://go.hyper.ai/j0rrB

8. FaceForensics の顔偽造検出データセット

発行機関：ミュンヘン工科大学 (TUM)、ドイツ

発売時期：2020年

ダウンロードアドレス:https://go.hyper.ai/ItO9I

9.UTKFace 大規模な顔認識データセット

発行機関：アメリカの大学

発売時期：2017年

推定サイズ:1.45GB

ダウンロードアドレス:https://go.hyper.ai/8soAU

10.CelebA の顔属性データセット

発行機関：香港中文大学

発売時期：2015年

推定サイズ:16.92GB

ダウンロードアドレス:https://go.hyper.ai/l0j1L

11.VGG-Face2 顔認識データセット
発行機関：オックスフォード大学

発売時期：2015年

推定サイズ:37.49GB

ダウンロードアドレス:https://go.hyper.ai/XKI0Z

HyperAIについて Hyper.ai

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

最後に、学術的な共有活動をお勧めします。

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

関連ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

関連ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

関連ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

関連ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

Command Palette

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

Command Palette

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

関連 ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

Command Palette

データセットまとめ｜DeepFakeは混沌に満ちている、魔法を使って魔法を倒す！高品質のデータセットが偽造品検出技術の開発をサポート

関連 ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

関連 ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

関連 ニュース

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

関連ニュース

関連ニュース

関連ニュース

関連ニュース