Super Neuro에서
워털루 대학의 바이 리(Bai Li)라는 중국인이 Medium에서 머신러닝(ML)의 로지스틱 회귀 방법을 사용하여 어떻게 파트너를 찾았는지 공유했습니다.
이처럼 실용적인 기술은 반드시 배워야 합니다.
워털루 대학교는 캐나다의 유명 대학이며, 캐나다 최고의 대학 중 하나입니다. 수학과 컴퓨터 과학 등 공학 분야의 교육 수준은 세계 최고 수준입니다. 이 대학의 유리한 전공 분야인 컴퓨터 과학은 2017년 US 뉴스 세계 대학 순위에서 18위를 차지했습니다.
모든 과학 및 공학 대학과 마찬가지로 워털루 대학은 성비가 매우 불균형하고 사회 활동이 부족하여 파트너를 찾는 것이 어렵습니다.
어떤 사람들은 사랑은 정량화할 수 없는 것이고, "그저 자신답게 행동하고 자연의 섭리에 맡겨야 한다"고 생각합니다.
하지만 워털루 대학의 데이터 과학자인 그 청년은 이에 동의하지 않습니다. 그는 자신이 컴퓨터 과학자이기 때문에머신러닝을 활용해 여자친구를 찾는 건 어떨까요?
여자 꼬시는 법: 무장하세요
말보다 행동이 더 중요하기 때문에, 저는 머신러닝 기술을 사용해서 여자친구를 찾는 방법을 연구하기 시작했습니다.
이 연구의 핵심 질문은 다음과 같습니다.
남자들 사이에서 돋보이고, 여자들에게 호감을 얻으려면 어떤 자질이 필요할까요?
동생저는 소년들의 특징을 나열해 보고, 어떤 가설이 데이터로 뒷받침될 수 있을지 알아보고자 했습니다.
데이트
(목표변수)
여자친구가 있거나, 지난 5년 동안 적어도 반년 이상 사귄 여자친구가 있음.
시민권 국가
국제학생들
주요한
CS, SE 및 ECE 전공
원인
학업적으로 성공하려면
좋은 급여의 인턴십을 찾았습니다
흥미로운
말하기가 좋고, 항상 흥미로운 대화 주제를 찾아낼 수 있습니다.
사교성
외향적인 성격으로 항상 새로운 사람들을 만나고 싶어함
신뢰
말하기가 좋고, 항상 흥미로운 대화 주제를 찾아낼 수 있습니다.
패션
외모에 신경 쓰고 품위 있게 옷차림하세요
캐나다
지난 5년간 캐나다에 거주
아시아 사람
동아시아에서
위의 경우, 기준이 충족되는지 여부에 따라 1 또는 0의 값을 할당합니다. 즉, 우리는 사람들의 위의 속성과 물건을 찾을 수 있는 능력 사이의 관계를 측정하고 있습니다.
위의 속성 중 일부는 매우 주관적입니다. 예를 들어, 어떤 사람이 흥미로운지 어떻게 증명할 수 있을까요? 그러니 만약 여러분이 매우 심도 있고 엄격한 통계적 연구를 보고 싶다면, 다음 내용은 여러분에게 적합하지 않을 수 있습니다.
데이터를 수집하기 위해, 제가 생각나는 모든 사람을 표에 나열하고 각 속성에 대해 0점 또는 1점을 부여했습니다. 마지막으로, 데이터 세트에는 N=70개의 행이 있습니다. 만약 여러분이 지난 2년 동안 저와 같은 학교에 다녔고 저를 알고 있다면, 여러분은 아마도 이 목록에 있을 것입니다.
주문 사유를 주의 깊게 분석하세요
먼저, 우리는 Fisher의 정확한 검정을 사용하여 목표 날짜 변수와 모든 설명 변수를 분석했고, 세 가지 변수가 가장 큰 영향을 미친다는 것을 발견했습니다.
-
적합:정기적으로 체육관에 가거나 운동을 하는 사람들은 여자친구가 있을 가능성이 두 배 이상 높습니다(P값 = 0.02).
-
안경:안경을 쓰지 않는 사람이 여자친구를 가질 확률은 안경을 쓰는 사람보다 70% 더 높다(P값 = 0.08)
-
신뢰:자존감이 높은 사람들은 친구가 있을 가능성이 더 높습니다(P 값 = 0.09)
청년은 안경을 쓰느냐 안 쓰느냐가 그렇게 큰 영향을 미친다는 사실에 놀랐고, 안경을 쓰면 일반적으로 사람들에게 "괴짜"라는 인상을 주기 때문인지 궁금해했습니다.
그래서 그 사람은 좀 더 자세한 정보를 찾아보았고, 그것이 사실임을 알게 되었습니다. 한 연구 논문에 따르면, 대부분의 사람들은 남성이든 여성이든 안경을 쓰면 매력이 떨어진다고 생각한다고 합니다.
일부 변수는 데이트 성공을 더 잘 예측할 수 있지만 표본 크기가 작기 때문에 확신하기 어렵습니다.
-
캐나다 학생보다 해외 유학생의 데이트 성공률이 더 높다
-
아시아인들은 다른 인종에 비해 데이트 기회가 적습니다.
다른 요소를 살펴보면, 여학생이 적기는 하지만 컴퓨터공학을 전공한 남학생들이 불리한 점은 아닌 것으로 보인다. 나머지 변수(키/직업/재미/사교성/패션/거주지)는 성공적인 데이트와 큰 관련이 없습니다. 결국, 데이트는 관계를 확인하는 첫 단계일 뿐이고, 너무 멀리 생각하거나 너무 복잡하게 생각하는 젊은이는 거의 없습니다.
이 실험의 전체 결과:
그런 다음 변수 간의 관계를 조사하여 잘못된 모델 가정을 식별하는 데 도움이 되었습니다.
빨간색은 양의 상관관계를 나타내고 파란색은 음의 상관관계를 나타냅니다.
통계적 유의성이 0.1 미만인 상관관계만 표시되므로 대부분 변수 간의 관계는 비어 있습니다.
사진으로 보면 그럴 것 같아요{ 여자친구가 있고, 자신감이 넘치고, 헬스장에 다니고, 안경을 쓰지 않음 }상호 관계가 있습니다. 이 데이터로 학습된 모델 역시 이러한 편향을 반영할 것이며, 앞으로 조사 범위를 확대하여 더 많은 데이터를 수집할 예정입니다.
로지스틱 회귀를 사용하여 여자친구 찾기 예측하기
여자친구를 만날 확률을 예측해주는 알고리즘이 있다면 얼마나 좋을까요?
이 청년은 앞서 나열한 설명 변수를 바탕으로 자신이 여자친구를 가질지 여부를 예측하기 위해 로지스틱 회귀 일반화 선형 모형을 훈련했습니다.
R의 glmnet과 caret 패키지를 사용하여 탄력적 네트 정규화를 적용한 일반화 선형 모델을 훈련했습니다. 그런 다음 표준 그리드 탐색 방법을 사용하여 하이퍼 매개변수를 최적화하고, 각 반복에서 단일 교차 검증을 사용하고 카파 계수를 최적화했습니다.
최종 결론
최종 모델의 교차 검증 ROC AUC 점수는 0.673으로, 이는 이 모델이 추측보다 여자친구를 만날 가능성을 더 잘 예측한다는 것을 의미합니다.
물론 인생에는 항상 우연한 불확실성이 있고, 인생에는 놀라운 일도 있을 것입니다. 좋아요, 이제 이야기는 그만하고, 동생이 체육관에 가서 안경을 벗으려고 애쓰고 있어요!
백리의 최근 사진입니다
이스터 에그: 남동생은 지금 어떻게 지내나요?
본 연구의 원저자인 바이리는 올해 4월에 연구를 완료했습니다. 그는 Medium에 기사를 게재했고, 그 기사는 좋은 평가를 받았습니다.동생의 프로젝트에 대한 자세한 내용은 GitHub에서 확인할 수 있습니다.
공개계정 팔로우하고 "한마리 강아지"로 답글 남겨주세요.
동생의 GitHub 주소를 얻을 수 있습니다
이 기사가 게재된 지 거의 4개월이 지났습니다. 동생은 잘 지내요? 우리는 페이스북이라고도 알려진 존재하지 않는 웹사이트를 통해 동생 벤에게 연락했습니다. 직접 체험해 보세요: