2달 전

Hi-SAM: 계층적 텍스트 세그멘테이션을 위한 Segment Anything 모델 결합

Ye, Maoyuan ; Zhang, Jing ; Liu, Juhua ; Liu, Chenyu ; Yin, Baocai ; Liu, Cong ; Du, Bo ; Tao, Dacheng
Hi-SAM: 계층적 텍스트 세그멘테이션을 위한 Segment Anything 모델 결합
초록

Segment Anything Model (SAM)은 대규모 데이터셋에서 사전 학습된 깊이 있는 시각 기반 모델로, 일반 세그멘테이션의 한계를 뛰어넘고 다양한 하류 응용 프로그램을 촉발시켰습니다. 본 논문에서는 계층적 텍스트 세그멘테이션을 위해 SAM을 활용한 통합 모델인 Hi-SAM을 소개합니다. Hi-SAM은 픽셀 수준의 텍스트, 단어, 텍스트 줄, 문단 등 네 가지 계층에 걸친 세그멘테이션에서 뛰어난 성능을 보이며, 레이아웃 분석도 실현합니다.특히, 먼저 효율적인 매개변수 조정 방법을 통해 SAM을 고품질의 픽셀 수준 텍스트 세그멘테이션(TS) 모델로 전환하였습니다. 이 TS 모델을 사용하여 HierText 데이터셋에서 네 가지 텍스트 계층의 라벨을 반자동 방식으로 일관되게 생성하였습니다. 그 다음, 이러한 완성된 라벨을 바탕으로 TS 아키텍처와 맞춤형 계층 마스크 디코더를 사용하여 end-to-end 학습 가능한 Hi-SAM을 구축하였습니다.추론 과정에서 Hi-SAM은 자동 마스크 생성(AMG) 모드와 프롬프트 가능한 세그멘테이션(PS) 모드를 제공합니다. AMG 모드에서는 Hi-SAM이 처음에 픽셀 수준의 텍스트 전경 마스크를 세그멘테이션한 후, 전경 점들을 샘플링하여 계층적 텍스트 마스크 생성과 동시에 레이아웃 분석을 수행합니다. PS 모드에서는 단일 클릭으로 단어, 텍스트 줄, 문단 마스크를 제공합니다.실험 결과는 우리의 TS 모델이 최고 수준의 성능을 보임을 입증합니다: Total-Text 데이터셋에서 84.86% fgIOU, TextSeg 데이터셋에서 88.96% fgIOU를 달성하였습니다. 또한, HierText에서 공동 계층 검출 및 레이아웃 분석에 대한 이전 전문가들과 비교할 때 Hi-SAM은 상당한 개선점을 보였습니다: 텍스트 줄 수준에서는 4.73% PQ와 5.39% F1 스코어, 문단 수준 레이아웃 분석에서는 5.49% PQ와 7.39% F1 스코어를 달성하며, $20\times$ 더 적은 학습 에폭만 필요했습니다. 코드는 https://github.com/ymy-k/Hi-SAM에서 확인할 수 있습니다.

Hi-SAM: 계층적 텍스트 세그멘테이션을 위한 Segment Anything 모델 결합 | 최신 연구 논문 | HyperAI초신경