Command Palette

Search for a command to run...

14日前

Wasm:構造化アラビア語混合マルチモーダルコーパス構築のためのパイプライン

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Wasm:構造化アラビア語混合マルチモーダルコーパス構築のためのパイプライン

要約

大規模言語モデル(LLM)および大規模マルチモーダルモデル(LMM)の性能は、事前学習データセットの質と規模に大きく依存している。近年の研究では、画像とテキストが交互に配置された自然なドキュメント上で学習された大規模マルチモーダルモデルが、画像-テキストペアのみで学習されたモデルよりも、広範なベンチマークにおいて優れた性能を発揮することが示されている。これは、事前学習済みモデルを活用して意味的整合性、画像シーケンスの一貫性、およびテキストの整合性を強化する効果によるものである。しかし、アラビア語においては、ドキュメントの構造を保持した高品質なマルチモーダルデータセットの不足が、研究の進展を制限してきた。本論文では、Common Crawlデータセットを処理するためのパイプライン「Wasm」を提示し、独自のMarkdown出力を提供する新しいアラビア語マルチモーダルデータセットの構築を報告する。既存のアラビア語コーパスがテキスト抽出に特化しているのに対し、本手法はウェブコンテンツの構造的整合性を保持しつつ、テキストのみの学習とマルチモーダル学習の両方に対応する柔軟性を兼ね備えている。また、主要な既存データセットで用いられている処理パイプラインと比較し、フィルタリング戦略の類似点を包括的に分析し、本研究の特定の設計選定の根拠を示す。今後の研究を支援するため、本研究では代表的なデータセットのダンプと、アラビア語用のマルチモーダル処理パイプラインを公開する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Wasm:構造化アラビア語混合マルチモーダルコーパス構築のためのパイプライン | 論文 | HyperAI超神経