한 달 전
Concrete Autoencoders for Differentiable Feature Selection and Reconstruction 콘크리트 오토인코더를 이용한 미분 가능한 특성 선택 및 재구성
Abubakar Abid; Muhammad Fatih Balin; James Zou

초록
우리는 전역 특성 선택을 위한 끝에서 끝까지 미분 가능한 방법인 콘크리트 오토인코더를 소개합니다. 이 방법은 정보가 가장 많은 특성의 부분 집합을 효율적으로 식별하고 동시에 선택된 특성을 사용하여 입력 데이터를 재구성하는 신경망을 학습합니다. 우리의 방법은 감독되지 않은 것으로, 인코더로 콘크리트 선택기 층을 사용하고 디코더로 표준 신경망을 사용하는 것을 기반으로 합니다. 훈련 단계에서는 콘크리트 선택기 층의 온도가 점차 낮아지도록 설정되어 사용자가 지정한 수의 이산 특성이 학습되도록 유도합니다. 테스트 시에는 선택된 특성을 디코더 네트워크와 함께 사용하여 나머지 입력 특성을 재구성할 수 있습니다. 우리는 다양한 데이터셋에서 콘크리트 오토인코더를 평가하였으며, 이는 특성 선택과 데이터 재구성에 있어 최신 기술보다 크게 우수한 성능을 보였습니다. 특히 대규모 유전자 발현 데이터셋에서 콘크리트 오토인코더는 소수의 유전자의 발현 수준을 사용하여 나머지 유전자의 발현 수준을 예측할 수 있는 작은 부분 집합의 유전자를 선택하였습니다. 이를 통해 현재 널리 사용되는 전문가가 선정한 L1000 랜드마크 유전자(L1000 landmark genes)보다 개선되며, 잠재적으로 측정 비용을 20% 줄일 수 있습니다. 콘크리트 오토인코더는 표준 오토인코더에 몇 줄의 코드만 추가하면 구현할 수 있습니다.