한 달 전
확장 가능한 그래프 기반 사전 확률 행렬 분해
Jonathan Strahl; Jaakko Peltonen; Hiroshi Mamitsuka; Samuel Kaski

초록
행렬 분해에서 사용 가능한 그래프 부가정보는 불완전 데이터 행렬로부터 학습된 잠재 특성 관계와 일치하지 않는 엣지를 포함할 수 있어, 행렬 완성 문제에 적합하지 않을 수 있습니다. 우리는 이러한 $\textit{논란의}$ 엣지를 제거하면 예측 정확도와 확장성이 향상됨을 보여줍니다. 논란의 엣지는 효율적인 그래픽 라소 근사를 통해 식별됩니다. 논란의 엣지를 식별하고 제거하는 과정은 최신 그래프 규제화된 행렬 분해 알고리즘에 어떠한 계산 복잡도도 추가하지 않으며, 비영행 성분의 개수에 대해 여전히 선형적입니다. 계산 부하량은 제거된 엣지의 수에 비례하여 감소합니다. 확률적 생성 모델을 정식화하고 기대 최대화(EM) 알고리즘을 사용하여 그래프 규제화된 대체 최소 제곱법(GRALS)을 확장함으로써 수렴성을 보장합니다. 다양한 시뮬레이션 실험을 통해 결과 알고리즘의 원하는 속성이 잘 나타나며, 실제 데이터 실험에서는 더 적은 그래프 엣지로 예측 정확도가 향상되는 것을 보여줍니다(그래프 부가정보가 종종 부정확하다는 경험적 증거). 30만 차원의 그래프와 3백만 개의 엣지를 가진 야후 음악 부가정보를 일반 노트북 컴퓨터에서 10분 미만으로 분석할 수 있다는 점은 우리의 그래프 갱신 방법이 효율적임을 입증합니다.