문서 이미지에서 그래픽 객체 검출을 위한 DETR와 R-CNN 간의 성능 차이 해소

이 논문은 DETR과 R-CNN 간의 그래픽 객체 검출 성능 차이를 줄이는 중요한 단계를 밟습니다. 기존의 그래픽 객체 검출 방법들은 최근 CNN 기반 객체 검출 기술의 발전으로 인해 상당한 진전을 이루었습니다. 최근에는 Transformer 기반 검출기들이 일반적인 객체 검출 성능을 크게 향상시켰으며, 수작업으로 만든 특징이나 Non-Maximum Suppression (NMS)와 같은 후처리 단계가 필요 없어졌습니다. 그러나 이러한 강화된 Transformer 기반 검출 알고리즘의 효과성이 그래픽 객체 검출 문제에서 아직 입증되지 않았습니다. 본 연구는 DETR의 최신 발전에 영감을 받아, 몇 가지 수정을 가한 기존의 Detection Transformer를 그래픽 객체 검출에 적용합니다. 우리는 포인트, 앵커 박스를 사용하고 앵커에 양성 및 음성 노이즈를 추가하여 성능을 향상시키기 위해 객체 쿼리를 다양한 방식으로 수정합니다. 이러한 수정은 크기와 종횡비가 다른 객체들을 더 잘 처리하고, 객체 위치와 크기에 대한 작은 변동에 대해 더 강건하며, 객체와 비객체 사이의 이미지 구분력을 개선하는 데 도움을 줍니다.우리는 PubTables, TableBank, NTable, PubLaynet 네 가지 그래픽 데이터셋에서 접근법을 평가했습니다. DETR에 쿼리 수정을 통합함으로써 이전 연구들보다 우수한 성능을 보였으며, TableBank에서는 mAP 95.7%, PubLaynet에서는 96.9%, PubTables에서는 99.3%라는 새로운 최고 수준의 결과를 달성했습니다. 광범위한 아블레이션 실험 결과는 Transformer 기반 방법론이 다른 응용 분야와 마찬가지로 문서 분석에서도 더 효과적임을 보여줍니다. 우리는 이 연구가 Detection Transformer를 문서 이미지 분석에 활용하는 연구에 더 많은 관심을 불러일으키기를 바랍니다.