2달 전

모든 SMILES 변분 오토인코더

Zaccary Alperstein; Artem Cherkasov; Jason Tyler Rolfe
모든 SMILES 변분 오토인코더
초록

분자 구조를 나타내는 SMILES 문자열과 그래프 기반 표현에 정의된 변분 오토인코더(VAEs)는 분자 특성의 최적화를 개선하여 제약 및 소재 산업을 혁신할 것으로 기대됩니다. 그러나 이러한 VAEs는 SMILES 문자열의 비고유성과 그래프 합성곱의 계산 비용으로 인해 제약을 받습니다. 분자 그래프의 모든 경로를 통해 메시지를 효율적으로 전달하기 위해, 우리는 단일 분자의 여러 SMILES 문자열을 스택된 순환 신경망(RNN) 집합을 사용하여 인코딩하고, 각 원자의 은닉 표현을 SMILES 표현 간에 풀링(pooling)합니다. 또한 주목력 풀링(attentional pooling)을 사용하여 최종 고정 길이 잠재 표현(latent representation)을 생성합니다. 그런 다음 분자의 서로 다른 SMILES 문자열 집합으로 디코딩함으로써, 우리의 All SMILES VAE는 사전 확률 질량(prior probability mass) 하위 공간 근처에서 분자와 잠재 표현 사이의 거의 쌍사상(bijective) 매핑을 학습합니다. 우리의 SMILES에서 파생되었지만 분자를 기반으로 하는 잠재 표현은 완전 감독 및 반감독 특성 회귀와 분자 특성 최적화 작업에서 현존하는 가장 앞선 방법들을 크게 능가합니다.

모든 SMILES 변분 오토인코더 | 최신 연구 논문 | HyperAI초신경