HyperAI초신경

모나쉬 대학교는 20,000개가 넘는 Flickr 이미지를 사용하여 지난 10년 동안 일본 벚꽃의 시공간적 특성을 재현했습니다.

2년 전
정보
Yinrong Huang
特色图像

내용을 한눈에 보기:최근 몇 년 동안 전 세계적으로 기후 변화가 심각해졌으며, 이로 인한 나비효과가 인간과 자연에 큰 영향을 미치고 있습니다. 이러한 맥락에서, 기후 변화가 꽃식물에 어떤 영향을 미치는지 이해하기 위해 수백, 심지어 수천 킬로미터에 걸쳐 꽃피는 패턴에 대한 데이터를 수집하는 것이 최근 몇 년 동안 생태학 연구에서 중요한 주제 중 하나가 되었습니다. 그러나 전통적인 방법은 일반적으로 많은 비용이 들고 표본 조사를 실시하는 데 오랜 시간이 걸리며, 물류 지원에도 많은 어려움이 있습니다. 플로라 저널에 최근 게재된 이 연구는 이런 문제를 극복할 뿐만 아니라, 전례 없는 세부 사항도 밝혀냈습니다.

키워드:시공간 분석, 스마트 생태학, SNS 데이터

본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~

일본의 국화인 벚꽃은 야마토 문화에서 중요한 역할을 합니다. 꽃놀이(하나미)는 독특한 민속 풍습으로 수백 년의 역사를 가지고 있습니다.그러나 일본은 위도 약 20도에 걸쳐 위치하고 있으며, 뚜렷한 기후 차이를 보이는 6개의 기후대로 나눌 수 있습니다.따라서 벚꽃이 피는 시기는 다양합니다. 벚꽃 시즌 동안 일본 여행 웹사이트에서는 다양한 장소의 개화 상황을 자세히 표시하여 관광객이 꽃을 즐길 시간을 조정할 수 있도록 합니다. 최근 들어 기후 변화의 영향으로 일본의 벚꽃 개화 시기가 계속 앞당겨지고 있습니다.

일본 벚꽃의 개화 패턴을 탐구하고 기후 변화가 페놀로지에 미치는 영향을 파악하기 위해 호주 모나쉬 대학교 연구팀은 Python API와 컴퓨터 비전 API를 사용하여 소셜 네트워크 사이트(SNS) 데이터를 통해 일본 벚꽃의 개화 상황을 모니터링하고 실험 결과를 실제 상황과 비교 검증했습니다.이 연구는 "소셜 네트워크 사이트 이미지 분석을 통해 밝혀진 일본 전역의 벚꽃 개화의 시공간적 특징"이라는 제목으로 플로라 저널에 게재되었습니다.

연구 결과는 Flora 저널에 게재되었습니다.

서류 주소:

https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019

실험 과정: 데이터 세트 크롤링, 필터링 및 분석

데이터세트 

이 실험에서 벚꽃 개화 데이터를 수집하는 과정은 두 단계로 나눌 수 있습니다.

1. 여러 가지 순차적 단계를 포함하여 소셜 네트워킹 사이트에서 이미지 데이터 추출

2. 컴퓨터 비전 API와 수동 검증을 사용하여 관련성을 위해 데이터를 필터링합니다.

API가 시간, 공간, 텍스트를 동시에 필터링해야 한다는 점을 고려하여 연구원들은 Flickr를 데이터 소스로 선택했습니다.먼저 Python API 클라이언트를 사용하여 Flickr에서 "벚꽃"이라는 키워드를 검색하여 지리적 좌표가 포함된 관련 이미지를 수집합니다.

다음으로, 경계 상자를 북위 31.186°-북위 46.178°, 동경 129.173°-동경 145.859°로 설정합니다.사진이 일본에서 촬영되었는지 확인하세요.COVID-19로 인한 전 세계 관광 감소의 영향을 제외하기 위해 기간을 2008~2018년으로 설정했습니다.

그런 다음 연구자들은 gadm.org에서 얻은 일본의 지리적 경계로 데이터를 마스킹하여 필터링했습니다.최종적으로 80,915개의 이미지가 얻어졌습니다.

2008년 1월 1일 - 2018년 12월 31일

Flickr에서 일본의 "벚꽃" 이미지를 검색하세요.

1월과 2월(파란색)봄이 오기 전 벚꽃이 가장 먼저 피는 것을 뜻합니다.

3월-5월(녹색)봄철 주요 벚꽃 개화 시기를 기록한 사진 자료의 집중을 나타냅니다.

10월-12월(분홍색)이는 특히 11월에 가장 두드러지는 흥미로운 현상을 보여줍니다.

Flickr 이미지는 검색어 '벚꽃'으로 제한되었지만, SNS 콘텐츠는 여전히 검색어와 잘못 연관될 수 있어 검증이 필요했습니다.

이와 관련하여,연구원들은 모든 이미지를 Google Cloud Vision AI에 제출했습니다.API는 각 이미지의 시각적 콘텐츠를 기반으로 설명적 텍스트 레이블을 생성하고, 개별 데이터 포인트의 관련성을 자동으로 두 번 확인합니다.

Google Cloud Vision AI는 사전 훈련된 머신 러닝 모델을 사용하여 사전 정의된 카테고리에 따라 이미지에 레이블을 지정합니다. 또한 연구자들은 다음 표에 나타난 것처럼 샘플 데이터에 대한 추가적인 수동 검증을 수행했습니다.

표 1: 도쿄 필터링 데이터 세트의 각 단계의 이미지 데이터

B열:Flickr에서 "벚꽃"을 검색하면 지리적 좌표가 모두 도쿄 지역의 행정 구역 내에 있는 28,875개의 이미지가 나옵니다.

C열:이 데이터 세트에 대해 Computer Vision API가 반환한 텍스트 레이블과 상대 빈도입니다. 텍스트 레이블 필터에서 반환된 이미지 중 21,908개는 Computer Vision API를 통해 "벚꽃"이라는 레이블이 지정되었지만, 일부 이미지에 "가을"이나 "단풍나무"라는 레이블이 지정되어 있었기 때문에 해당 레이블을 제거하여 총 21,633개의 이미지가 생성되었습니다.

D열:결과 이미지는 수동 검사를 위한 샘플로 무작위로 선택됩니다.

E열:수동 검사로 벚꽃으로 확인된 이미지 수

F열:월별 자동 처리 방법(컴퓨터 비전 및 레이블 분석)의 추정 정확도는 E/D로 계산됩니다.

G열:이러한 정확도를 사용하여 2월, 3월, 4월에 촬영된 벚꽃 사진의 총 수를 계산해 보세요. 계산방법은 C*F입니다

평가 방법론 

벚꽃 개화 날짜를 추정하기 위해 연구원들은 데이터 세트의 모든 이미지에 대한 일자별 시계열을 생성한 다음7일 폭 삼각형 이동 평균 지표가 처리에 사용됩니다. 중심점에는 단일 가중치가 할당되고, 양쪽의 점에는 0.75의 가중치가 할당됩니다.그리고 그 다음으로 가까운 지점에는 각각 0.5와 0.25의 가중치가 할당되었습니다. 이는 주말(여가 시간으로 사진 활동이 크게 늘어남)과 주중에 꽃을 감상하는 사람의 수가 달라서 발생하는 사진 활동의 변동을 완화하기 위한 것입니다.

그래프의 결과는 사진 촬영 활동의 정점을 보여주는데, 이는 벚꽃 개화(만개)의 정점으로 확인되었습니다.

비교 검증: 예측된 결과가 실제 데이터와 일치함

일본에서 벚꽃에 대한 가장 오래된 기록은 서기 812년으로 거슬러 올라가며 공식적인 관찰은 1953년 이후로 이루어졌습니다. 팀의 분석적 접근 방식을 검증하기 위해실험팀은 벚꽃 구경을 위해 인기 있는 두 도시인 도쿄와 교토의 데이터를 선택하여 일본 기상청(JMC)과 일본 정부 관광국(JNTO)이 매년 발표하는 벚꽃 만개일과 비교하고, 실험에서 얻은 절정일과 공식 발표일 사이의 오차를 계산했습니다..

실험을 통해,연구팀은 일본 전역에서 피는 벚꽃의 시각적 시공간적 데이터를 얻었습니다.1월 말(3-4주차)부터 5월 말(3-4주차)까지 벚꽃은 먼저 따뜻한 남부 기후 지역에서 피기 시작하여 점차 북쪽으로 이동하다가 마침내 남쪽에서 북쪽으로 물러납니다. 그림에서 보여지는 바와 같이:

그림 2: 2008년부터 2018년까지 일본의 벚꽃 사진 촬영 위치,

각 그래프의 기간은 2주에 해당합니다.

AC:벚꽃은 일본 남부의 따뜻한 지역에서 볼 수 있으며, 특히 혼슈 섬의 도쿄와 교토와 같은 도시 중심지에 벚꽃이 많이 밀집되어 있습니다.

DF:벚꽃의 수가 늘어나 혼슈 섬 북부로 퍼지고 있습니다.

미군 병사:벚꽃의 개화 장소가 북쪽으로 확대되어 홋카이도의 삿포로에도 나타났습니다. 도쿄와 교토에서는 아직도 사진 촬영이 활발하다. 벚꽃 사진은 홋카이도와 혼슈 북부에 더 많이 집중되어 있습니다. 마침내, 전국의 벚꽃 사진의 수는 점차 줄어들어 남쪽에서 북쪽으로 밀려났습니다.

실험팀은 도쿄와 교토 지역의 벚꽃 행사 사진 촬영 일수의 처리된 시계열의 피크값을 JMC/JNTO가 발표한 날짜와 비교하고 검증했습니다.결과에 따르면 RMS 오차는 도쿄 지역에서 3.21일, 교토 지역에서 3.32일입니다.아래와 같이 표시됩니다.

그림 3: 도쿄 지역의 두 평가 날짜 비교

왼쪽 열: 이 실험적 방법을 통해 추정한 도쿄의 벚꽃 개화 정점 날짜

가운데 칼럼: JNTO가 매년 발표하는 도쿄 벚꽃 개화 시기

오른쪽 열: 오류, 즉 두 날짜 사이의 일수 차이

그림 4: 교토 지역의 두 평가 날짜 비교

왼쪽 열: 이 실험적 방법을 통해 추정한 교토의 벚꽃 개화 절정일

가운데 칼럼: JNTO가 매년 발표하는 교토 벚꽃 개화 시기

오른쪽 열: 오류, 즉 두 날짜 사이의 일수 차이

실험팀의 데이터는 또한 벚꽃이 가을에 핀다는 사실을 밝혀냈습니다. 이는 JNTO가 공개한 자료에 공식적으로 명시되어 있지 않습니다.이는 SNS 데이터가 확률이 낮은 사건을 분석하고 비정상적인 생물학적 현상을 밝혀낼 수 있는 능력을 가지고 있음을 보여줍니다.이는 일년 내내 꽃가루와 꿀과 같은 향기로운 자원의 가용성을 평가하거나 계절에 맞지 않는 개장 시간과 같은 예상치 못한 상황에서도 매우 중요합니다.

SNS 데이터: 생태학 연구에 대한 새로운 통찰력 제공

세계기상기구(WMO)가 올해 4월 발표한 자료에 따르면 2022년 지구 평균 기온은 1850년부터 1900년까지의 평균 기온보다 1.15℃ 높았습니다. 인간은 기후 변화를 비교적 느리게 감지하지만, 식물은 특히 민감하게 반응합니다.지구 온난화의 영향으로 일본 벚꽃뿐만 아니라 우리나라 여러 지역의 꽃식물도 피해를 입었습니다.

우한대학의 벚꽃 관찰 데이터에 따르면, 우한대학의 벚꽃 개화 시기는 1960년대 이후 상당히 앞당겨졌으며, 2000년 이후로도 계속해서 기록을 경신하고 있으며, 한때는 3월 하순에서 2월 하순으로 앞당겨졌습니다.

1990년대 이전, 산둥성 허쩌의 모란꽃 개화 시기는 주로 4월 하순에 집중되어 있었습니다. 2010년경에는 4월 중순으로 앞당겨졌습니다. 최근 몇 년 동안은 4월 초순에 꽃이 피는 것을 볼 수 있습니다.

유채꽃의 개화 시기도 상당히 앞당겨지는 추세를 보이고 있습니다. 올해 장시성 우위안의 유채꽃은 2월 22일부터 피기 시작하여 3월 13일부터 절정에 달했습니다. 30년 전에는 유채꽃이 대체로 3월 중순에 피었습니다.

케피오스가 발표한 보고서에 따르면 2023년 4월 기준 전 세계 소셜 미디어 사용자 수는 48억 명에 달할 것으로 예상되며, 이는 전 세계 인구의 59.91%에 해당합니다. 평균적으로 사람들은 매일 소셜 미디어 애플리케이션을 사용하는 데 2시간 24분을 소비합니다.엄청난 양의 소셜 네트워크 데이터가 생성되면서 생태학 연구에 새로운 통찰력이 제공될 것으로 기대됩니다.

본 논문에서 저자들이 제안하는 SNS 분석 기술은 공공 데이터의 누락된 부분을 채워주고, 연구자들이 기후 변화가 꽃식물에 미치는 영향의 다양한 정도를 이해하는 데 도움을 주며, 꿀벌과 곤충과 같은 중요한 수분매개자의 행동을 이해하는 데 긍정적인 의의가 있습니다.

참고문헌:

[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117

[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8

[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html

[4]https://datareportal.com/social-media-users

본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~