2달 전

실시간 손 제스처 인식: 골격 기반 데이터 융합 및 다중 스트림 CNN의 통합

Yusuf, Oluwaleke ; Habib, Maki ; Moustafa, Mohamed
실시간 손 제스처 인식: 골격 기반 데이터 융합 및 다중 스트림 CNN의 통합
초록

손동작 인식(HGR)은 다양한 실제 상황에서 직관적인 인간-컴퓨터 상호작용을 가능하게 합니다. 그러나 기존 프레임워크는 실용적인 HGR 애플리케이션에 필수적인 실시간 요구 사항을 충족시키는 데 어려움을 겪곤 합니다. 본 연구에서는 동적 손동작 인식을 정적 이미지 분류 작업으로 단순화하여 하드웨어와 계산 요구 사항을 효과적으로 줄이는 강력한 스켈레톤 기반의 HGR 프레임워크를 소개합니다. 이 프레임워크는 데이터 수준 융합 기술을 사용하여 동적 손동작에서 얻은 3D 스켈레톤 데이터를 정적 RGB 시공간 이미지로 인코딩합니다. 또한, 데이터 표현 간의 의미론적 연결성을 최적화하면서 계산 요구 사항을 최소화하는 전문적인 엔드투엔드 앙상블 튜너(e2eET) 멀티스트림 CNN 아키텍처를 통합합니다. SHREC'17, DHG-14/28, FPHA, LMDHG, CNR 등 다섯 개의 벤치마크 데이터셋에서 테스트된 결과, 이 프레임워크는 최신 기술과 경쟁할 수 있는 성능을 보였습니다. 표준 소비자 PC 하드웨어에 배포함으로써 저 지연 시간과 실제 환경에서의 최소 자원 사용량을 입증하며, 실시간 HGR 애플리케이션 지원 능력을 확인하였습니다. 이 프레임워크의 성공적인 배포는 가상/증강 현실, 주변 지능, 보조 기술 등의 분야에서 실시간 애플리케이션을 향상시킬 잠재력을 강조하며, 동적 손동작 인식에 대한 확장성 있고 효율적인 해결책을 제공합니다.