모두가 알고 있는 대로 전 세계는 지금 지구 온난화,폭력적인 반란,정치적 불안,질병의 발발 등의 풀기 어려운 문제에 직면해 있습니다.지속적인 경제 불확실성과 함께 발생하고 있는 이러한 위기들은 변동성, 불확실성, 복잡성,모호성의 증가로 인해 어려움을 겪는 리더들을 양산하고 있습니다.우리가 의지할 것은 우리의 탄력성과 적응성밖에 없는 것처럼 보입니다.

그러나 만약 이러한 불안정한 사건들을 미리 예측할 수 있다면 어떨까요? 만일 리더들이 경고 징후를 쉽게 알아 차릴 수 있다면어떻게 행동해야 할까요?최근에 이르러서야 우리는 그러한 도구를 만드는데 필요한 만큼의 데이터를 수집하였으며,충분한 컴퓨터 성능을 확보하였습니다.

빅토르 위고(Victor Hugo)는 그의 작품 웃는 남자(TheMan Who Laughs)에서 “역사란 무엇입니까? 미래에 일어날 과거의 메아리입니다.”라고 하였습니다. 미래의 사건들은 그 나름대로의 독특한 환경에 기반하고 있겠지만,대부분 과거의 익숙한 패턴을따릅니다. 컴퓨터의 성능,데이터 저장소,데이터 사이언스 알고리즘의 발전은 이러한 패턴을 파악할 수 있게 하였습니다.

제가 지난 7년간 개발한 시스템은 대규모의 디지털 역사자료, 백과사전, 소셜 및 실시간 미디어, 웹 사용자들의 행동양식을 수집하여 미래에 어떤 사건이 일어날 가능성을 실시간으로 계산해 냅니다.기본적으로 이 시스템은 150년간의 뉴욕타임즈 기사,위키피디아의 전체 DB, 수백만 개의 웹 검색결과와 웹페이지를 결합하여 특정 조건의 상황 속에서 발생할 수 있는 사건의 가능성을모델링합니다.이 알고리즘은 거대한 데이터에서 일련의 역사적인 사건들을 추출한 후, 모든 인과의 조합을 시도하여 통계적 상관관계를 찾아 일반화합니다.

실제로,최근 저와 동료 데이터 과학자들은 130년 안에 첫 콜레라 발생을 정확하게 예측하는 알고리즘을 개발했습니다.우리의 시스템이 추론한 패턴은 내륙지역의 콜레라 발생은 폭풍이 지나간 다음에 발생할 확률이 높으며, 특히 최대 2년 안에 긴 가뭄이 있었던 시기에 더욱 확률이 높았습니다. 이러한 패턴은 수자원이 풍부하지 못하고, GDP가 낮은 국가에서만 발생했습니다.이는 콜레라가 물에서 발생하는 질병이기 때문에 수자원이 풍부한 곳에서 발생할 것이라는 기존의 예측에 비춰볼 때 놀라운 결과입니다. (콜레라의 치료 방법이 이 현상을 설명할 수 있습니다.즉각적인 탈수증상의 치료가 이루어진다면,콜레라 사망률은 50%에서 1%까지 떨어질 수 있습니다. 즉, 수자원이 풍부한 곳에서는 전염병이 번지지 않게 할 수 있는 충분한 정수가 있었다는 것입니다.)

매번 업데이트되는 통계자료를 통해 추론되는 이러한 예측결과의 의미는 의료팀이 특정 지역의 콜레라 전염병 발생 위험이 있다는 것을 2년 전에 미리 경고할 수 있으며,이에 따라 깨끗한 물을 보내 생명을 살릴 수 있다는 것입니다.

다른 전염병 또한 유사한 방식으로 예측할 수 있습니다. 에볼라는 아직 충분한 데이터가 확보되지 않았기 때문에 통계 패턴을 추론하기가 어렵습니다. 그럼에도 불구하고,의료 논문들에서 발견할 수 있는 에볼라 사망자에 관한 지식과 반복해서 발생하는 사건들을 연결해 보면 에볼라의 중요한 패턴이 나타납니다.

몇몇 논문에서는 과일박쥐와 현재 및 과거의 에볼라 발생과의 연관성에 대해 언급하고 있습니다. 그러나, 어떤 이유로 과일박쥐가 사람과 접촉하게 됐을까요?

에볼라는 1976년 자이르와 수단에서 처음 발생했습니다. 두 나라에서 에볼라가 발생하기 1년전, 이 지역에서는 화산이 폭발하였으며 이 폭발로 인해 많은 사람들이 금과 다이아몬드를 찾으러 오기 시작했습니다.이는 삼림 파괴를 일어나게 하는 원인이 되었습니다. 우리의 알고리즘이 각종 데이터베이스와 백과사전에서 추론한 바에 따르면,이러한 삼림파괴가 과일박쥐를 포함한 동물들의 이동을 유발시켰습니다.

우리는 폭력의 발생 가능성을 모델링하기 위해 동일한 접근방법을 사용했습니다.우리의 시스템은 시리아와 수단의 폭동과 그 지역을 예측했습니다.이는 폭동이 GDP가 성장하고 있지만 1인당 소득수준은 낮은 비민주적인 국가에서 과거 정부에서 보조금을지급해주던 제품들의 가격이 상승하고 학생들의 데모가 일어나며 경찰과 충돌하게 될 때 발생하는 패턴을 발견했기 때문입니다.

이 알고리즘은 대학살도 예측이 가능한데,이는 대학살이 리더나 사회의 주요 인물들이 소수민족을 인간이 아닌 것으로 취급할때,특히 그들을 해충처럼 대할 때 발생한 확률이 높다는 것을 확인했기 때문입니다. 하나의 예가 르완다에서의 학살입니다.몇 년전에 4,000명의 투치족이 키부무에서 살해당했습니다. 키부무의 시장인 그레그와르 나다히마나(GregoireNadahimana) 같은후투족 지도자들은 소수민족인 투치족을 바퀴벌레로 언급했습니다.  우리의 알고리즘이 이 사례 및 여러 역사적 데이터들을 통해추론한 바에 따르면 다음과 같은 경우에는 대학살이 일어날 확률이 4배에 이릅니다.A) 어떤 사람이나 특정 집단이 소수 민족(인구조사와 UN데이터에 따른 정의)을 포유동물이 아닌 질병을 확산시키는 쥐 같은 동물로 표현할 때,B) A)가 발생하기 3~5년전부터 뉴스에 최소 수십번 이상 다뤄졌으며,현지 언어로 된 위키피디아에 소수 민족에 대한 내용을 입력되었을 때입니다.

지난 세기에 일어난 수천건의 사건에 대한 실증분석을 통해 우리의 시스템이 70~90%의 정확도로 30~60%의 사건의 발생을예측하는 것으로 나타났습니다. 수정 구슬은 없었습니다만, 인류가 가졌던 어떠한 수단보다도 더 나은 결과입니다.

가뭄뒤의 폭풍이 콜레라를 유발시킨다는 것을 아는 것이 NGO, 건설회사, 보건기관에는 어떤 의미가 될 수 있을까요?삼림파괴가 과일박쥐의 이동을 유발시키고,과일박쥐의 이동이 에볼라 발생의 위험을 증가시킨다는 것을 아는 것이 광산회사,규제기관, 환경단체, 정부의 수장들에게 어떤 의미가 될 수 있을까요?특정 언어의 선택과 정책 변화가 광범위한 폭력을 유발시킬 수 있다는정보를 통해 우리는 무엇을 할 수 있을까요? 어떻게 우리는 위험에 대해 다르게 생각하기 시작할 수 있을까요?

“빅데이터”와 정교한 분석을 통해 기업은 자신의 이윤을 상당히 개선할 수 있습니다.그러나, 수백만개의 뉴스기사,수천개의 백과사전 표제어, 논리를 제공해주는 수많은 웹사이트,인과관계 분석에서 얻어진 지식의 결합은 단순히 매출을 증가시키는 것 이상의잠재력이 있습니다.이것은 과거에 예측하지 못했던 위기들을 자동으로 에측해 줄 것이며, 위험에 대해 전략적으로 생각할 수 있게 하며, 관련된 과거에서 얻은 교훈을 기반으로 한 미래에 대한 통찰력을 겸비한 인류애를 겸비하게 해 줄 것입니다. 우리가 우리를 둘러싼 변동성,불확실성, 복잡성, 모호성에 대해 무언가를 할 수 있다는 것을 의미합니다. 그리고 다음에 폭동이나 전염병이발생할 때 리더들이 더 이상 무방비상태가 아닐 것임을 의미합니다.

* 본 기사는 HBR BLOG에 실린 ‘Using Algorithms to Predict the Next Outbreak‘를 번역한 내용입니다.
* 저자: 키라 라딘스키는 SalesPredict사의 공동창업자  CTO입니다.  그녀는 주목받는 데이터사이언티스트로 2013년에는 MIT Technology Review에서 2013 “35 이하의35명의 혁신가 선정되었으며, 2014년에는 Forbes에서 이스라엘의 영향력있는 50인의 여성 선정되었습니다.
* 번역: HBR포럼코리아 천정훈 회원

http://hbr.org/2014/11/using-algorithms-to-predict-the-next-outbreak/

댓글 남기기