LEDラテン文字碑文データセット
LEDは、2025年にGoogle DeepMindによって公開された、これまでで最大の機械操作可能なラテン語碑文データセットです。関連論文は「生成ニューラルネットワークによる古代テキストの文脈化”。
このデータセットには合計176,861点の碑文が含まれていますが、そのほとんどは部分的に損傷しており、使用可能な対応画像を作成できるのは5%碑文のみです。このデータは、最も包括的なラテン語碑文データベースであるローマ碑文データベース(EDR)、ハイデルベルク碑文データベース(EDH)、クラウス=スラビーデータベースから取得されており、これらのデータベースには紀元前7世紀から紀元後8世紀までの碑文が含まれており、地理的範囲は西はローマ帝国のブリタニア(現在のブリテン)とルシタニア(ポルトガル)の属州から、東はエジプトとメソポタミア(イラク)まで広がっています。