중국과학원 반도체연구소 논문이 TNNLS 최고 저널에 다시 게재돼 수학적 표현 탐구에 새로운 관점을 제시했다.

수학적 표현식을 푸는 것은 머신 러닝 분야에서 매우 중요한 연구 주제이며, 기호 회귀(SR)는 데이터에서 정확한 수학적 표현식을 찾는 방법입니다.
상징적 회귀 분석은 주어진 관찰 데이터의 기본적인 수학적 표현을 밝히는 데 사용됩니다. 설명하고 일반화하는 능력이 뛰어나며, 변수 간의 인과적 메커니즘을 설명하거나 복잡한 시스템의 발전 추세를 예측할 수 있습니다. 물리학, 천문학 등 다양한 분야에서도 널리 사용됩니다.
유명한 응용 사례로는 케플러가 행성 궤도를 발견한 것이 있습니다. 과학자들은 상징적 회귀 알고리즘을 사용하여 천체 운동의 새로운 법칙을 발견하고 이를 통해 궤도를 추론했습니다. 이는 우주의 광대한 별의 바다에 대한 인간의 탐험에 중요한 기여입니다.
그러나 상징적 회귀 연구에도 어려움은 있습니다. 기호 회귀는 이러한 요소들의 최적 조합을 구하고, 독립 변수 X와 종속 변수 Y가 주어졌을 때 가장 적절한 계수를 구하는 데 중점을 둡니다. 그러나 최적 조합을 구하는 것은 NP-hard 문제(비결정적 다항식)이며, 조합 공간은 기호 표현식의 길이에 따라 기하급수적으로 증가합니다. 또한, 계수의 비선형 해결 과정과 요소조합 최적화 과정이 서로 간섭하기 때문에 정확한 식을 결정하는 데 많은 시간이 소요됩니다.
이러한 학문적 문제에 대한 대응으로,중국과학원 반도체연구소의 연구원들은 표현 구조의 해결책을 분류 문제로 간주하고 지도 학습을 통해 이를 해결했으며, 기호 표현을 표현하기 위해 DeepSymNet이라는 기호 네트워크를 제안했습니다.지도 학습을 기반으로 한 여러 인기 있는 SR 알고리즘과 비교했을 때, DeepSymNet은 더 짧은 레이블을 사용하고, 예측 검색 공간을 줄이며, 알고리즘의 견고성을 향상시킵니다.

서류 주소:
https://ieeexplore.ieee.org/document/10327762
공식 계정을 팔로우하고 "DeepSymNet"이라고 답글을 남겨 논문을 다운로드하세요.
기존 방법의 한계 강조
현재 인기 있는 상징적 표현 구조에 대한 두 가지 주요 솔루션 유형이 있습니다.
- 검색 기반 솔루션
고전적인 검색 기반 솔루션은 GP(유전자 프로그래밍) 알고리즘입니다. 먼저, 초기 개체군으로 다수의 표현형을 무작위로 얻은 후 복제, 교환, 돌연변이를 통해 진화를 진행하고, 표현형이 선함의 요건을 충족할 때까지 선함이 작은 자손을 선택하여 진화를 계속합니다.
또한 탐색 기반 방법 중에서도 강화 학습을 이용하여 적합한 표현 구조를 탐색하는 것이 중요한 방법으로, DSR 알고리즘이 있다. 이 알고리즘은 심볼 트리를 시퀀스로 인코딩하고 심층 강화 학습에서 정책 그래디언트 방법을 사용하여 이를 해결한다. DSR의 기본 아이디어는 보상이 큰 표현식을 샘플링할 확률을 높여 오류가 더 작은 표현식을 생성하는 것입니다.
물리 공식에 대한 SR 알고리즘인 AIFeynman도 있는데, 이는 주로 물리학의 사전 지식을 사용하여 표현식 구조를 판단하고, 이를 통해 표현식을 더 작은 하위 문제로 분해하고 검색 공간을 좁힙니다. 또 다른 방법은 희소 최적화에 기반한 EQL인데, 주로 BP 알고리즘과 희소 최적화를 결합하여 매개변수를 학습하고, 이를 통해 EQL 네트워크에서 희소한 하위 네트워크를 얻은 다음 수학적 표현 구조를 얻습니다.
이러한 유형의 방법은 눈에 띄는 단점 외에도 검색 공간이 크고 솔루션 경험을 재사용할 수 없기 때문에 느리다는 공통적인 단점이 있습니다.
- 지도 학습 기반 솔루션
지도 학습 기반 솔루션은 검색 기반 솔루션의 시간 소모적인 단점을 극복할 수 있습니다. 대표적인 방법으로는 SymbolicGPT, NeSymReS, E2E 등이 있다.
* SymbolicGPT는 기호 표현식을 문자열로 인코딩하고 표현식 구조 솔루션을 언어 번역 작업으로 간주합니다. 언어 번역 프로세스의 GPT 모델은 지도 학습을 위해 인공적으로 생성된 많은 수의 샘플을 사용합니다.
* NeSymReS는 전순차 순회를 통해 심볼 트리를 시퀀스로 인코딩하고 집합 Transformer를 사용하여 학습합니다.
* E2E는 표현 구조와 계수를 훈련을 위한 레이블로 인코딩하여 표현 구조와 계수를 동시에 예측합니다.
그러나 이러한 솔루션은 여러 개의 동등한 레이블과 불균형한 학습 샘플이라는 문제점을 가지고 있으며, 이는 학습 과정에서 모호성을 쉽게 야기하고 알고리즘의 견고성에 영향을 미칠 수 있습니다.게다가 다른 단점도 있습니다. 예를 들어, SymbolicGPT는 샘플링에 사용되는 심볼의 수가 최대 4개 레이어이기 때문에 비교적 간단한 표현식을 고려합니다. E2E는 계수를 레이블로 인코딩하는데, 이로 인해 레이블이 매우 길어지고 예측 정확도 등에 영향을 미칩니다.
문제 해결을 위한 새로운 접근 방식 - DeepSymNet
중국과학원 반도체 연구소의 연구원들은 기호 표현을 표현하기 위해 DeepSymNet이라는 새로운 기호 네트워크를 제안하고 DeepSymNet의 전반적인 프레임워크를 제시했습니다.첫 번째 층은 데이터이고, 중간 층은 은닉층이며, 마지막 층은 출력층입니다.

은닉층 노드는 +, -, ×, ÷, sin, cos, exp, log, id 등의 연산 기호로 구성되며, 여기서 id 연산자는 EQL의 id 연산자와 동일합니다.
각 은닉층의 ID 연산자의 수는 이전 층의 노드 수와 같지만, 다른 연산자는 각 은닉층에 한 번씩만 나타납니다. 연산자 ID는 이전 계층의 노드와 일대일로 대응되므로 각 계층은 이전 계층의 모든 정보를 활용할 수 있습니다. 나머지 연산자는 일반 연산자이며 이전 계층에 완전히 연결되어 있습니다.
id 연산자와 이전 계층 간의 연결은 고정되어 있으며, 일반 연산자는 이전 계층과 연결이 없거나 1~2개만 있습니다. 즉, 이 네트워크에서는 하나의 하위 네트워크가 하나의 기호 표현을 표현한다는 뜻입니다. 표현식이 차지하는 숨겨진 레이어가 많을수록 표현식의 복잡성이 높아집니다. 따라서 은닉층의 수를 사용하여 표현의 복잡도를 대략적으로 측정할 수 있습니다.
하지만 입력 계층에는 기호 표현식에서 상수 계수를 표현하는 데 사용되는 특수 노드 "const"가 있다는 점에 유의하세요. "const" 노드에 연결된 에지만 가중치(상수 계수)를 가지므로 기호 표현에서 충분한 상수 계수가 발생하는 것을 방지합니다.
결론적으로,DeepSymNet은 모든 표현을 표현할 수 있는 완전한 네트워크입니다. SR을 해결하는 것은 DeepSymNet에서 하위 네트워크를 검색하는 과정입니다.
두 그룹의 실험 비교는 이점을 보여줍니다.
연구팀은 인공적으로 생성된 데이터 세트와 공개 데이터 세트를 기반으로 테스트를 실시하고, 현재 널리 사용되는 알고리즘을 비교했습니다.
데이터세트 다운로드 주소:
https://hyper.ai/datasets/29321
실험에서 DeepSymNet은 최대 6개의 은닉층을 가지며 최대 3개의 변수를 지원합니다. 연구팀은 각 라벨에 대해 20개의 데이터 포인트를 포함하는 20개의 샘플을 생성했습니다. 상수 계수와 변수 모두에 대한 샘플링 간격은 [-2,2]입니다. 학습 전략은 조기에 중단하는 것입니다(즉, 검증 세트의 손실이 더 이상 감소하지 않을 때 학습을 중단하는 것입니다). Adam 최적화 도구의 도움을 받았습니다.
- 인공적으로 생성된 데이터에 대한 테스트 결과
테스트 결과는 다음과 같습니다.
* 예측 객체의 수가 증가할수록 예측의 난이도는 높아지고, 표현의 은닉층(즉, 복잡도)도 증가합니다.
* 라벨 예측의 병목 현상은 연산자 선택에 있습니다.
* DSN2는 DSN1보다 최적 및 근사 솔루션을 더 잘 해결합니다.
* 동등한 라벨 병합과 샘플 밸런싱은 알고리즘의 견고성을 강화할 수 있습니다.
첫 번째,DeepSymNet은 심볼릭 트리보다 표현식을 더 효율적으로 표현할 수 있으며, 표현식에 여러 번 나타나는 동일한 모듈의 경우 DeepSymNet의 평균 레이블 길이는 NeSymRes보다 짧습니다.

위 그림에서 볼 수 있듯이, DeepSymNet 레이블로 학습된 모델의 예측 정확도는 NeSymReS 레이블로 학습된 모델의 예측 정확도를 훨씬 능가합니다. 이는 DeepSymNet 레이블이 심볼릭 트리 레이블보다 더 우수함을 보여줍니다.
둘째,표현식이 차지하는 은닉층의 수가 증가함에 따라 모델의 예측 정확도는 급격히 감소합니다. 따라서 연구팀은 레이블 예측을 연산자 예측과 연결 관계 예측의 두 가지 하위 작업으로 나눌 수 있다고 제안했는데, 이를 통해 레이블 예측 문제를 더 잘 해결할 수 있을 것으로 보인다.

DeepSymNet을 두 부분으로 나누어 훈련한 결과, 은닉 계층의 수가 증가함에 따라 연산자 선택의 예측 정확도는 급격히 떨어지지만 연결 관계의 예측 정확도는 높은 수준을 유지하는 것으로 나타났습니다. 이는 연산자 선택 공간이 연결 관계 선택 공간보다 훨씬 크기 때문입니다. 따라서 연구진은 연산자 선택의 정확성을 높이기 위해 연산자 선택에 대한 별도의 교육을 실시했습니다.

예측 과정에서 팀은 먼저 연산자 선택 모델을 사용하여 연산자 선택 시퀀스를 얻은 다음, 이를 훈련된 모델 DSN1에 입력하여 연결 관계를 예측했습니다. 테스트 결과는 위의 그림과 같습니다. 운영자 선택에 대한 별도의 교육을 거친 후, 예측 정확도가 크게 향상되었습니다. 별도로 훈련된 모델을 DSN2라고 합니다.
또한 연구진은 동등한 라벨 병합과 샘플 밸런싱 향상의 견고성을 검증하기 위해 절제 실험을 수행했습니다. 먼저, 128,455개의 서로 다른 레이블을 포함하는 500,000개의 교육 샘플이 무작위로 선택되었습니다(TrainDataOrg). 결과는 이러한 라벨의 표본 번호가 심각하게 고르지 않게 분포되어 있음을 보여줍니다. 최소 표본 번호는 1, 최대 표본 번호는 13,196, 표본 번호 분산은 13,012.29입니다.

그런 다음 팀은 동등한 레이블을 병합한 후 훈련 샘플 TrainDataB와 훈련 샘플 TrainDataBM을 얻기 위해 샘플 수를 균형 있게 조정했습니다.
그런 다음, 세 가지 훈련 데이터를 기반으로 DSNOrg, DSNB, DSNBM 모델을 얻었습니다. 이 세 가지 모델은 테스트 세트에서 테스트되었습니다. 세 가지 모델의 정확도는 처음부터 끝까지 증가했습니다.이는 샘플 균형을 증가시키고 동등한 레이블을 병합한 후 최적의 솔루션을 찾는 모델의 정확도가 향상되었음을 보여주며, 실제로 알고리즘의 견고성이 강화되고 알고리즘의 성능이 개선되었습니다.
- 공개 데이터 세트 테스트 결과
연구팀은 6개의 테스트 데이터 세트를 사용했습니다.코자 Korns, Keijzer, Vlad, ODE 및 AIFeynman은 이러한 데이터 세트에서 3개 이하의 변수가 있는 표현식을 선택하여 테스트를 수행했습니다. 현재 널리 사용되는 지도 학습 기반 방법과 비교한 결과, 제안된 알고리즘(DSN1, DSN2)의 정확도가 비교 알고리즘보다 우수한 것으로 나타났습니다.

또한 연구팀은 해당 알고리즘을 현재 널리 사용되는 검색 기반 방법인 EQL, GP, DSR과 비교하였으며, 그 결과는 아래 그림에 나타나 있다.

알고리즘(DSN1, DSN2)의 평균 오차는 가장 작고, 얻어진 표현식의 복잡도 역시 실제 표현식의 복잡도에 가장 가깝습니다.
요약하면, 결과를 바탕으로 다음과 같은 결론을 내릴 수 있습니다.연구팀이 연구한 알고리즘은 기호 표현 오류, 기호 표현 복잡도, 실행 속도의 세 가지 측면에서 비교 알고리즘보다 우수한 성능을 보였으며, 이를 통해 알고리즘의 효과성이 확인되었습니다.
무대 뒤의 팀은 스타들로 가득 차 있습니다
전 세계의 과학자들은 상징적 회귀의 핵심 문제를 해결하기 위해 열심히 노력하고 있습니다. 논문에서는 DeepSymNet이 아직 몇 가지 한계가 있다고 언급했지만, 이 연구는 여전히 인공지능이 수학 문제를 해결하는 데 중요한 기여를 하고 있습니다. 이를 분류 문제로 취급함으로써, 이는 의심할 여지 없이 지도 학습을 기반으로 한 SR 방법에 대한 새로운 솔루션을 제공합니다.
물론, 이러한 성과는 논문의 첫 번째 저자인 우민을 비롯한 여러 사람의 열정과 땀에서 비롯된 것입니다. 중국과학원 반도체연구소 공식 홈페이지에 따르면,우민은 현재 중국과학원 반도체연구소의 연구원 보조로 일하고 있습니다. 그는 "딥러닝 기반 심볼릭 회귀와 반도체 소자 연구 개발에서의 응용", "지식 융합 신경망 분할 정복 단순화 심볼릭 회귀 방법"을 포함한 여러 과학 연구 프로젝트에 참여했습니다.
게다가,이 논문의 저자 중 한 명인 류징이 박사는 작년 7월 최고의 인공지능 저널인 Neural Networks에 게재된 논문의 첫 번째 저자였습니다. 논문의 제목은 "SNR: 상징적 회귀를 위한 상징적 네트워크 기반 조정 가능 학습 프레임워크"였습니다.상징적 회귀 문제에 대한 교정 기능을 갖춘 학습 프레임워크가 제공됩니다.
관련 주제에 대한 연구를 보면, 이 나라는 혁신적 방법을 확실히 선도하고 있습니다. 앞으로 기대할 수 있는 것은 이러한 이론과 연구 결과가 가까운 미래에 실제 문제를 해결하는 데 중요한 기여를 할 것이라는 점입니다.