
要約
再現性と再複製性は経験的研究において重要な柱であり、特に機械学習では、モデルの可用性だけでなく、それらのモデルを訓練および評価するために使用されるデータセットにも依存しています。本論文では、建設業界鋼材発注リスト(CISOL)データセットを紹介します。このデータセットは透明性に重点を置き、再現性、再複製性、拡張可能性を確保するために開発されました。CISOLは新しい研究リソースとして貴重な役割を果たし、土木工学における表抽出のような特定の応用領域でも多様なデータセットを持つ重要性を強調しています。CISOLの特徴は、産業界から得られた実世界の土木工学文書を含んでいる点にあります。これにより、この分野への独自的な貢献となっています。データセットには800以上の文書画像に120,000を超えるアノテーションされたインスタンスが含まれており、中規模のデータセットとして位置付けられ、表構造認識(TSR)および表検出(TD)タスクの堅固な基礎を提供しています。ベンチマーク結果によると、YOLOv8モデルを使用したCISOLは[email protected]:0.95:0.05で67.22という成績を達成しており、TSR専用のTATRモデルを上回っています。これはCISOLがTSRの進歩に向けたベンチマークとして効果的であることを示しており、特に専門的な領域での進展に寄与することが期待されます。