LG경제연구원 '빅데이터의 현실, 기대와 큰 격차'
빅데이터가 미래 세상을 바꿀 주요 동인으로 주목받고 있고 향후 시장이 크게 성장할 것으로 기대되고 있지만, 아직 현실적으로는 많은 기업들이 빅데이터를 활용하는데 어려움을 겪고 있다. 데이터 확보의 문제, 정보보호 및 보안의 문제, 예산 문제, 분석 역량 및 전문가 부족 문제 등이 빅데이터 활용을 어렵게 하는 요인들이다. 외부 데이터는 고사하고 기업 내부 데이터들도 파편화되어 통합되어 있지 않은 경우가 많다. 또한 필요한 외부 데이터가 있어도 확보하기 어려운 경우가 많다. 이미지, 텍스트, 동영상 등 비정형 데이터들은 확보하기도 어렵지만 의미 있는 결과를 얻을 수 있을 정도로 기술 수준도 충분히 발달하지 못하였다. 특히 영어에 비해 한글 텍스트 분석은 더 어렵고 갈 길이 멀다. 개인정보보호에 따른 리스크도 크다. 개인정보는 특정 개인을 식별할 수 없도록 하는 비식별화 조치를 취한 후에 이용할 수 있지만, 비식별화가 생각보다 쉽지 않다. 수집되는 데이터 소스가 다양해지고 데이터 마이닝 등 분석 기법이 정교해지면서 개인정보의 비식별화는 점점 더 어려워지고 있다. 데이터 과학자에 대한 수요는 급증하고 있는 반면 공급이 수요를 따라가지 못하면서, 빅데이터 관련 인력 수급의 불균형 또한 장애 요인이 되고 있다.
빅데이터를 활용하는데 어려움이 있지만, 가용하기 비교적 쉬운 데이터 분석으로 접근하여 오히려 성과를 내고 있는 사례들도 많다. 코노코필립스, 유나이티드 헬스케어, 클라이밋 코퍼레이션 등은 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출하였다. 그리고 제스트파이낸스와 트립어드바이저는 다양한 비정형 데이터를 활용한 사례이다. 비정형 데이터가 처리, 정제 및 분석 기술의 한계 때문에 분석하는 것이 어렵지만 분석의 대상을 잘 디자인 할 경우 적지 않은 성과를 낼 수 있음을 보여주는 사례들이다. 아직은 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내기가 어렵지만 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것이 당장의 성과뿐 아니라 미래를 위한 역량 축적을 위해서도 필요한 과정으로 보인다.
< 목 차 >
1. 기대에 비해 더딘 진행
2. 빅데이터 활용을 어렵게 하는 요인들
3. 가용한 데이터부터
1. 기대에 비해 더딘 진행
빅데이터는 ‘21세기 원유’라고 불리며, 수년 전부터 관심을 끄는 주요 IT 트렌드가 되었다. 리서치 회사인 위키본(Wikibon)은 빅데이터 시장의 규모가 2015년에 384억달러에 이르고, 2017년에는 501억달러 규모로 성장할 것으로 전망하였다. 다른 시장조사기관인 IDC도 다소 수치상의 차이는 있으나 향후 빅데이터에 대한 수요가 급증할 것이라고 예측하였다. 기업들의 빅데이터 투자에 대한 관심도 꾸준히 증가하고 있다. 미국 IT 리서치 기업인 가트너(Gartner)가 기업 IT 책임자들을 대상으로 실시한 조사 결과에 따르면, 빅데이터 투자 계획이 있다고 응답한 비율이 2013년 64%에서 2014년 73%로 증가한 반면, 투자 계획이 전혀 없다고 응답한 비율은 2013년 31%에서 2014년 24%로 감소한 것으로 나타났다.
전세계적으로 빅데이터 시장이 지속적으로 성장할 것으로 전망되지만, 빅데이터에 대한 회의론도 나타나고 있다. 가트너는 2014년 기준으로 빅데이터가 과잉 기대의 정점을 지나 ‘환멸기(Trough of Disillusionment)’ 단계에 진입하였다고 한다. 이는 빅데이터 기술이 이미 널리 알려지고 그 한계를 드러내면서 어느 정도 거품이 꺼진 상태가 되었음을 의미한다. 빅데이터의 효과에 대한 의문도 꾸준히 제기되고 있는데, 2013년에 미국의 컨설팅 회사인 인포침스(Infochimps)의 조사 결과도 전체 빅데이터 프로젝트 중 절반 이상이 실패했으며 성공한 기업들조차 운영 효율 측면에서는 성공하지 못했음을 보여주고 있다. 또한 빅데이터 프로젝트를 통해 제대로 된 효과를 거두었다고 응답한 기업이 열 개 중 한 개도 되지 않는다는 조사결과도 있다.
국내의 경우는 빅데이터 산업의 발전이 더 더디게 진행되고 있는 것으로 보인다. IT 미디어 전문기업인 한국IDG가 지난해 초 국내 IT 전문가 및 관련 담당자들을 대상으로 조사한 결과에 따르면, 국내에서 빅데이터 기술을 도입한 기업은 11%에 불과하다. 향후 2년 내에 도입할 예정인 기업도 1/3 수준인 것으로 조사되었다. 구글, 아마존, 페이스북 등 해외 글로벌 기업들이 빅데이터의 중요성과 그로 인한 잠재가치를 크게 평가하고 실질적인 빅데이터 활용 역량을 내부적으로 축적하고 있는 것과는 달리 대다수 국내 기업들은 빅데이터를 제대로 활용하지 못하고 있는 것으로 보인다.
2. 빅데이터 활용을 어렵게 하는 요인들
지난해 대한상공회의소의 조사 결과에 따르면, 500개 국내 기업들이 생각하는 빅데이터 활용의 가장 큰 걸림돌은 ‘데이터 분석 역량 및 경험 부족’, ‘시스템 구축비, 관리비 등 예산 부족’, ‘정보보호 및 안정성에 대한 우려’ 등이다(<그림 1> 참조).
또한 비즈니스 인텔리전스 업체인 마이크로스트레티지코리아와 한국IDG도 국내 전문가 1,030명을 대상으로 빅데이터를 도입하려고 할 때 어려운 사항으로 어떤 것들이 있는지를 조사하였다. 그 결과 ‘신뢰할 수 있는 데이터 확보’, ‘분석 역량(사람)’, ‘데이터의 다양성’, ‘비용’ 순으로 어려움을 느끼는 것으로 나타났다(<그림 2> 참조). 빅데이터를 도입하고자 하는 단계이므로 데이터를 어떻게 확보할 것인지와 어떠한 분석을 하여 기업에게 보다 가치 있는 결과를 도출해낼 것인지에 대해 어려움을 겪고 있고, 실제 빅데이터 프로젝트를 진행하는 단계에서는 데이터 통찰력을 가진 인력 부족에 대해 가장 크게 어려움을 느끼는 것으로 나타났다. SAS나 R 같은 분석 엔진이 갖추어져 있더라도 이것은 분석을 위한 소프트웨어일 뿐이고, 최종적으로 통찰력을 끄집어내는 것은 해당 업무 분야에 대한 지식과 함께 분석 역량까지 갖추고 있는 사람이기 때문이다.
이상의 조사결과들을 종합하여 빅데이터의 활용을 저해하는 요인들을 ‘데이터 확보의 문제’, ‘정보보호 및 보안에 대한 우려’, ‘예산 문제’, ‘분석 역량 및 분석가 부족의 문제’로 나누어 하나씩 구체적으로 살펴보면 다음과 같다.
데이터 확보의 문제
오늘날 사람들은 매 순간 기술을 이용하면서 디지털 정보를 남긴다. 디지털 기기들과 웹사이트들에 계속해서 쌓이는 외부의 디지털 정보들이 기업 내부의 재무, 마케팅, 판매 등의 데이터와 합쳐지면 그것이 바로 빅데이터가 된다.
내부 데이터의 경우 데이터를 생산하는 주체, 분석하는 주체, 사용하는 주체가 다 다르기 때문에 빅데이터로 만들어지지 못하는 경우가 많다. 마케팅, 영업, 기획, 회계 등 부서별로 데이터의 형식과 의미를 다르게 받아들이고 사용한다면, 연계 및 공동 활용 시에 문제가 발생할 여지가 있다.
외부 데이터의 경우, 정부 및 공공기관이 보유한 각종 통계 데이터, 기후 정보, 지도 정보 등 비교적 어렵지 않게 확보할 수 있는 외부 데이터도 있지만, 기업의 입장에서 시간이나 비용 등의 대가를 지불하더라도 확보하기 어려운 경우가 아직은 많다. 기업이 원하는 데이터가 아직 분석이 가능한 수준으로 개발되지 않은 경우가 많고, 데이터가 존재한다고 하더라도 데이터를 공유 및 구매하기 어려운 경우도 많다.
또한 웹 로그 데이터, 음성 데이터, 이미지 데이터, 텍스트 및 이미지나 동영상이 조합된 데이터 등 다양한 형태와 유형을 가진 비정형 데이터의 양이 급격하게 증가하면서 그 중요성도 부각되고 있다. 그러나 비정형 데이터는 많은 경우 제대로 분석되지 않은 채 유실되고 있다. 2014년 기업이 분석중인 빅데이터 형태를 묻는 가트너의 조사 결과에 따르면, 정형 데이터인 거래 정보를 분석하고 있는 기업은 전년 대비 9% 증가한 79%인 반면, 비정형 데이터인 로그 정보를 분석하고 있는 기업은 오히려 2% 하락한 58%로 나타났다.
확보한 데이터의 품질도 문제가 된다. 기업들이 외부에서 데이터를 수집하고 활용하는 기회가 늘어나면서 출처가 불명확하거나 질이 떨어지는 데이터가 섞여 들어오기 때문이다. 그리고 소셜 미디어의 사용자 편향성, 기업들이 지원하는 대가성 소셜 미디어 평가와 리뷰가 증가하는 현상, 쓸모 없는 정보가 많아져서 오히려 진정성 있는 고객의 목소리가 모호해지는 상황 등으로 인해 소셜 데이터의 양과 질의 문제도 끊임없이 지적되고 있다.
정보보호 및 보안에 대한 우려
기업이 활용하는 데이터의 범위가 광범위하게 넓어지면서 개인정보보호에 관한 문제는 반드시 해결해야 할 과제가 되었다. 현행 정보통신망법 등 개인정보보호 관련 법령상 개인정보를 수집하고 이용하고자 할 때는 이용자의 사전동의를 반드시 받아야 한다. 그러나 빅데이터는 대량의 데이터를 수집하고 처리해야 하는 작업이므로 개인들에게 사전동의를 일일이 받는 것이 쉽지 않다. 또한 빅데이터는 다른 데이터와 결합하여 재사용될 때 실제적으로 가치를 발현하게 되는데, 정보 활동 방법에 대한 사전동의는 이것을 어렵게 만든다. 방송통신위원회가 개인정보보호를 위해 기업이 지켜야 할 사항을 구체적으로 규정한 ‘빅데이터 개인정보보호 가이드라인’을 2014년 12월에 발표하였다. 이에 따르면, 다른 정보와 결합하더라도 특정 개인을 식별할 수 없도록 하는 비식별화 조치를 취한 경우에 한해 이용자들의 동의 없이 개인정보를 수집·이용하고, 이를 제3자에게 제공할 수 있으며, 이용자가 거부 의사를 표시하지 않는 한 내부에서 이용할 수 있도록 규정하고 있지만, 비식별화가 생각보다 쉽지 않다는 점이 문제이다.
수집되는 데이터 소스가 다양해지고 데이터 마이닝 등 분석 기법이 정교해지면서 개인정보 비식별화는 점점 더 어려워지고 있다. 실제로 미국 MIT대 컴퓨터공학부에 재학 중인 학생들은 페이스북의 인맥 정보 등을 활용하여 비공개 정보도 간접적으로 찾을 수 있음을 증명하였다. 그들은 페이스북 회원들 사이의 인맥 링크의 연관성을 찾아내어 동성애자 여부를 밝히지 않은 회원도 동성애자인지 아닌지를 알아낼 수 있음을 보여주었다. 개인들이 공개하기를 원하지 않는 정보도 다른 공개된 정보를 조합함으로써 알아낼 수 있음을 보여주는 사례라고 할 수 있다. 미국의 일부 헬스케어 기업들은 개인 의료 기록에 접근하지 않으면서도 데이터 브로커, 약국, SNS가 제공하는 빅데이터로부터 개인 의료 정보를 간접적으로 수집하고 있다고 한다. 이들은 데이터 마이닝을 통해 개인 의료 정보를 프로파일링하고 이를 기반으로 임상실험 대상자를 찾아내는 것으로 알려져 있다. 미국에서 환자의 의료기록에 있는 개인식별 가능한 정보는 보호되고 있지만, 그들이 쇼핑한 내역, 인터넷을 검색하면서 남긴 건강 정보나 콘텐츠 이용 정보, 자동차 소유 여부 등 라이프스타일 정보들은 보호받지 못하고 있기 때문이다.
개인정보보호의 문제와 함께 개인정보유출 등과 같은 보안의 문제도 중요한 이슈이다. 보안회사 세이프넷(SafeNet)이 제공하는 지난해 ‘개인정보 유출사고 TOP’ 15위를 살펴보면, 15위권에 한국이 6개나 포함되어 있다. 2013년 대비 2014년에 국내에서 개인정보 유출사고가 더 많이 발생하였으며 리스크 스코어도 크게 증가하였음을 확인할 수 있다. 최근 기업들의 광범위한 데이터 수집으로 인해 개인정보 유출사고가 많이 나타나고, 사고 규모가 대형화되면서 이로 인한 리스크도 증가하고 있는 것으로 보인다. 방송통신위원회의 자료에 따르면, 지난 3년간 개인정보가 유출된 건수는 2,155만건에 달하며, 2012년의 90만건에서 2014년에 2천만건으로 폭증하였음을 알 수 있다(<표 1> 참조).
예산 문제
단순히 비용이 문제가 아니라 투자 대비 수익(ROI) 측면에서 확신이 없어서 빅데이터의 도입을 망설이는 경우가 있다. 물론 이런 경우에는 현업 부서에서 부분적으로 적용하여 빅데이터 활용의 가능성을 확인한 후에 전사적으로 확대 적용하는 것도 하나의 방안이 될 수 있다. 또한 빅데이터 기술 인프라를 가지고 있는 기업과 기술 제휴나 MOU 체결 등을 통해 빅데이터를 기반으로 한 시스템을 공유하는 것도 생각해 볼 수 있다. 그러나 이런 방안들은 전사 차원으로 빅데이터를 도입하기 전의 과도기적인 대안이라고 할 수 있다.
하둡(Hadoop) 등 공개소프트웨어(OSS: Open Source Software)를 활용하면 예산은 확실히 줄일 수 있다. 전통적인 관계형 데이터베이스에서 1TB를 1년간 저장하는 비용이 3만 7천달러, 데이터 장치에서는 5천달러가 소모되지만, 하둡에서는 2천달러만으로 가능하기 때문이다. 그러나 하둡을 도입하고자 할 때는 보다 신중하게 접근을 할 필요가 있다. 최근 개발업체 패러다임4(Paradigm4)가 ‘빅데이터 분석에서의 장애물’이라는 주제로 실시한 설문조사에 따르면, 분석가들 중 3/4 이상이 하둡 또는 하둡 배포 파일시스템에 구축된 연산 프레임워크인 스파크(Spark)를 사용하고 있지만 하둡은 너무 느리고 프로그래밍에도 많은 노력을 요하는 등 각종 한계점을 가진다고 지적하고 있다. 비용 측면에서 보아도, 하둡이나 NoSQL 데이터베이스 등 공개소프트웨어를 다룰 수 있는 기술을 보유한 인력이 기업 내부에 없다면 오히려 인력에 대한 비용이 급격히 커지거나 의미 있는 분석 결과를 얻지 못할 가능성도 있다.
분석 역량 및 분석가 부족의 문제
빅데이터 프로젝트에서 가장 어려운 부분은 역량 있는 분석 인력을 확보하는 것이다. 빅데이터와 분석 솔루션을 갖추었다고 할지라도 가치 있는 결과를 도출해낼 수 있는 데이터 과학자가 없다면 무용지물이 될 수 있다. 데이터 과학자는 기술, 산업, 통계에 대한 다양한 전문 지식을 바탕으로 여러 소스를 통해 유입된 데이터 속에서 숨겨진 가치를 찾아내고 의미 있는 통찰력을 제시할 수 있는 인재를 말한다. 빅데이터에 대한 관심이 커지기 시작하던 초기에 한 아마존 수석 엔지니어는 포브스와의 인터뷰에서 데이터 과학자의 자질로 데이터를 분석하고 살펴볼 수 있는 수학적인 재능과 각종 솔루션을 사용할 수 있는 공학적인 능력은 기본이고 더불어 인문적인 소양도 필요하다고 언급하였다. 가설을 세우거나 검증하는데 필요한 비판적인 시각과 글쓰기 능력, 다른 사람에게 내용을 잘 전달할 수 있는 표현 및 대화 능력, 그리고 호기심과 개인의 행복도 중요하게 요구되는 자질로 선정되었다.
전세계적으로 데이터 과학자에 대한 수요는 급증하고 있는 반면, 공급이 수요를 따라가지 못하면서 인력 수급의 불균형 문제도 해결되어야 할 과제다. 액센츄어(Accenture)의 2013년도 보고서는 미국 내에서 2010년과 2015년 사이에 40만명의 데이터 분석 관련 일자리가 생겨날 것이지만 이에 적합한 자격을 갖춘 인력은 14만명 정도에 불과할 것으로 보았다. 영국의 비영리단체인 e-skills UK도 2017년까지 영국 내 빅데이터 인력의 수요는 6만 9천명으로 전망되나 공급은 절반에도 못 미칠 것으로 예측하였다. 한편 국내에서 빅데이터 관련 인력 수급의 불균형은 보다 더 심각한 문제가 될 것으로 전망되고 있다. 2017년까지 국내에서 빅데이터 전문 인력으로 1만 4천명 정도가 필요하지만, 현재 국내 6개 대학원에서 배출되는 인력은 170명 정도에 불과한 것으로 조사되었다.
3. 가용한 데이터부터
내부 데이터 및 외부 공개 데이터 활용 사례
데이터 확보가 어렵다고 느껴진다면, 우선 사내에 쌓여 있는 내부 데이터부터 분석하여 의미 있는 결론을 도출하는 작업을 시도하는 것이 유용한 접근법이 될 수 있다. 특히 비정형 속성이 적은 데이터, 개인정보보호 이슈가 적은 데이터의 분석이 상대적으로 접근하기 쉽다.
미국 정유회사 코노코필립스(ConocoPhillips)는 시추선 고장이 날 때마다 장애 부품을 파악하고 대체품으로 교체해 수리하기까지 많은 시간과 비용이 낭비되는 문제를 가지고 있었다. 코노코필립스는 방대한 부품 데이터를 분석하였고, 그 결과 시추선 고장이 발생하기 전에 나타나는 일관된 패턴을 발견할 수 있었다. 이 분석을 통해 코노코필립스는 고장으로 인한 시추선 가동중단 발생률을 80% 줄이고 운영비용으로 매년 7억달러를 절감할 수 있었다.
미국의 신시내티 동물원(Cincinnati Zoo)은 6개월간 동물원을 방문한 고객들의 행동 데이터를 분석하여 마케팅에 활용한 사례이다. 매출 감소로 어려움을 겪던 신시내티 동물원은 아이스크림이 해질 무렵에 가장 많이 판매된다는 것을 알아내고 운영시간을 2시간 연장하는 등 내부에 이미 축적되어 있던 거래 데이터에 기반하여 상품별 마케팅 전략을 새로 수립하였다. 이를 통해 여름 시즌 동안 아이스크림의 판매가 매일 2천달러 가량 늘어났으며, 식음료와 유통 상품 판매도 35% 이상 증가하는 효과를 보았다.
국내에서는 코레일이 빅데이터 분석으로 운임체계의 효율성을 높인 것으로 알려져 있다. 공실률을 최소화하여 지난해 수요가 1.5% 늘었으며, 수익도 3.8% 증가했다. 또한 코레일은 고객의 소리 빅데이터를 분석하여 개선 과제를 발굴하고 제도를 개선하는 작업도 진행하고 있다.
한편 정형 데이터는 아니지만, 기업 내부의 음성 데이터를 분석하여 효과를 얻은 사례도 있다. 건강보험회사인 유나이티드 헬스케어(United Healthcare)는 고객의 불만을 더 잘 이해하기 위해 콜센터에 걸려온 고객의 음성 전화 기록을 텍스트로 변환하여 분석하였다. 유나이티드 헬스케어는 텍스트 분석을 통해 강한 불만을 느끼고 있는 고객들을 찾아내고 이 고객들이 느끼고 있는 불만을 해결해 줌으로써 고객들의 만족감을 향상시키고 그들의 이탈을 방지하였다.
외부 데이터라고 해서 무조건 비싸고 이용하기 어려운 것은 아니다. 정부 및 공공기관이 보유한 각종 통계 데이터를 이용하거나 데이터 거래 시장인 데이터 마켓플레이스를 활용하면 무료로 또는 저렴하게 외부 데이터를 확보하는 것이 가능하다.
외부 공개 데이터를 활용하여 또는 외부 공개 데이터와 기업 내부 데이터를 결합함으로써 더 높은 가치를 실현한 몇 가지 사례들이 있다. 미국의 클라이밋 코퍼레이션(The Climate Corporation)은 기후 데이터와 토양 데이터 및 수확량 데이터를 활용하여 종합기후보험(Total Weather Insurance)을 개발 및 판매하여 수익을 창출하였다. 아시아나 항공도 기상 데이터를 활용하여 최적의 연료량, 항로 및 고도를 산출하였고 이를 통해 경제운항을 실현하였다고 한다. 날씨에 대한 예측의 정확도가 높아지면서 회항 건수가 감소하는 등 안전운항도 가능해졌다고 한다.
또 다른 예로, 대한생명은 자사의 보험계약 데이터뿐 아니라 보험개발원, 보험협회 등의 공공 데이터를 함께 활용하여 보험사기방지시스템을 업그레이드하였다. 대한생명은 이를 통해 연간 50억원의 사기방지 효과를 얻었다고 자체적으로 분석하였다.
미국 전역 1억여 가구에 대한 지방자치단체의 기록, 세금 자료, 매매 및 대여 기록, 대출 정보 및 인구 정보 등을 취합하여 주택 가격 예측 시스템(Zestimate)을 개발한 온라인 부동산 정보회사인 질로우(Zillow)의 사례도 있다.
이처럼 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고도 의미 있는 결과를 도출하는 것이 가능하다.
비정형 데이터의 활용 사례
가트너의 닉 휴데커(Nick Heudecker)는 아무리 복잡하고 정제되지 않은 데이터 소스라도 기업이 분석 결과를 활용할 경우 기대한 수준의 30~40%의 반응은 이끌어 낼 수 있다고 주장한다. 음성, 텍스트, 이미지 데이터 등은 좀 더 복잡하고 정제하는 것이 더욱 어려운 반면, 센서나 로그 정보는 비정형 데이터이지만 상대적으로 간단하고 정제하기가 용이한 편이다. 따라서 비정형 데이터 중에서도 로그 정보나 센서 정보를 분석하려는 시도가 많이 이루어지고 있다.
예를 들어, 건설기계 제조회사인 코마츠(Komatsu)는 건설기계를 판매할 때 GPS와 각종 센서를 장착하여 기계의 현 위치, 가동 시간, 가동 상황, 연료 잔량 등의 데이터를 실시간으로 수집하였다. 이 센서 데이터를 활용하여 배차의 효율성을 달성하고, 도난 방지 및 유지 관리 비용을 줄이는 효과를 거두었다.
또한 자동차 주행 정보를 수집하여 운전자별 맞춤형 보험료를 산정한 보험회사들도 있다. 영국의 아비바생명(Aviva)은 급제동, 급가속, 급회전 등의 요인을 참고하여 보험료를 20%까지 할인해 주고, 미국의 스테이트팜(State Farm)은 운행시간대, 주행거리까지 포함하여 최대 50%까지 할인율을 적용하고 있다.
텍스트나 이미지 등의 비정형 데이터도 고객 데이터와 같이 데이터 소스와 데이터 내용이 어느 정도 제한되어 있는 경우 상대적으로 다른 비정형 데이터보다 의미 있는 분석 성과를 내기가 쉬울 수 있다. 미국의 신용분석업체인 제스트파이낸스(ZestFinance)는 대출 신청자의 통화 습관 및 소비성향, 소셜 미디어 상에서의 자사 관련 글 등 다양한 비정형 데이터를 분석하여 고객 신용평가 모델을 개발하였다. 이 신용평가 모델을 활용한 후에 단기 대출 연체율은 20%까지 감소하고 수익은 20% 이상 향상되었다고 발표하였다.
그리고 트립어드바이저(Trip Advisor)는 고객들의 텍스트와 이미지 리뷰를 분석하여 성공한 사례이다. 세계 최대 여행 커뮤니티인 트립어드바이저는 전세계 여행객들이 올리는 호텔, 음식점, 여행지에 대한 상세한 설명과 사진 정보를 수집한다. 이런 방대한 비정형 데이터를 분석하여 고객 개개인에게 적합한 여행 상품을 추천하고, 그 곳에 대한 자세한 여행 정보도 함께 제공하고 있다.
빅데이터 역량은 데이터 과학자에 의해 좌우
빅데이터를 활용하는데 어려움이 많지만, 위의 경우들처럼 가용한 데이터 분석으로 접근하여 성과를 내고 있는 사례들도 많다. 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출한 경우도 있고, 분석하기 어려운 비정형 데이터의 분석 대상을 잘 디자인하여 적지 않은 성과를 거둔 경우도 있다. 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내기가 아직은 어렵지만 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것은 당장의 성과 뿐 아니라 미래를 위한 역량 축적을 위해서도 필요한 과정으로 보인다.
빅데이터 역량은 곧 데이터 과학자의 확보 문제와 직결된다. 여기서 말하는 데이터 과학자는 단순히 분석가라기 보다는 빅데이터 속에서 숨겨진 가치를 찾아내고 의미 있는 통찰력을 제시할 수 있는 인재이다. 전세계적으로 데이터 과학자의 부족이 심화되고 있으며 이 문제에 대한 해결은 긴 시간이 필요할 것으로 보인다. 물론 최근 국내외적으로 기업, 대학 및 정부에 이르기까지 모두 함께 데이터 과학자를 육성하기 위해 나서고 있다. 단시간 내에 인력 수급의 불균형을 해소하기에는 어려움이 있겠지만 기업 내부에 데이터 분석가 더 나아가 데이터 과학자를 내재화하려는 노력을 강화할 필요가 있다.
빅데이터 분석을 잘하고 있는 것으로 알려져 있는 해외 글로벌 기업들을 살펴보면, 이들은 빅데이터 분석을 외부에 의뢰하기보다는 데이터 과학자 조직을 새로 만들어 활용하고 있는 추세이다.
월마트는 데이터 과학자가 주축이 된 월마트랩(Walmartlabs)을 운영하며 고객의 다양한 데이터 분석, 고객 선호도 및 수요 데이터 분석, 재고 예측 등을 실시하고 있다. 또한 비즈니스 네트워크 인맥 사이트인 링크드인(LinkedIn)도 데이터 과학자팀을 보유하고 있는데, 이들이 ‘알 수도 있는 사람들(People You May Know)’이라는 서비스를 개발하였다. 링크드인은 이 서비스로 인해 회원 가입이 급증하는 효과를 얻었다고 발표하였다. 글로벌 스토리지 기업인 EMC는 데이터 과학자들로 구성된 애널리틱스 랩을 운영하며 마케팅 전략 수립에 활용하고 있고, IBM도 200여명의 수학과 통계 전문가들로 구성된 데이터 분석팀이 미래 전략 구축에 기여하고 있다. <끝>
'■ 경제보고서 ■' 카테고리의 다른 글
◎Moonshot Thinking 한 걸음 앞선 기업들의 두 걸음 앞선 생각 (0) | 2015.03.24 |
---|---|
◎고졸 취업이 청년 고용 견인한다 (0) | 2015.03.23 |
◎작은 디테일, 고객은 크게 본다 (0) | 2015.03.17 |
◎거대 기업도 스타트업처럼 ‘먼저 쏘고 나서 겨누어라’ (0) | 2015.03.16 |
◎수소연료전지차 진입으로 전기차 시장 성장에 시너지 효과 기대 (0) | 2015.03.11 |