要約
本稿では、TypeScriptにおけるシーケンスベースの型推論のための機械学習モデルの学習および評価を目的とした、非常に大規模なコーパス「ManyTypes4TypeScript」を紹介する。このデータセットは、13,953プロジェクトおよび539,571ファイルにまたがり、900万件を超える型注釈を含んでいる。これはPython向けの類似データセットと比較して約10倍の規模であり、現時点で利用可能な最も大規模なTypeScript用データセットである。また、本データセットはAPI経由でアクセス可能であり、任意のトークナイザーに統合可能で、最新のシーケンスベースモデルと連携して利用できる。さらに、ベースライン評価を目的として、最新のコード特化型モデルの分析および性能評価結果も提供している。ManyTypes4TypeScriptは、Hugging Face、Zenodo、およびCodeXGLUEにて公開されている。