본문 바로가기

기술사 칼럼

Big Data Analysis

[Source]http://blog.daum.net/tomayoon/7094324

             - 2012.06.18.  경기대 윤병남 교수 자료

빅 데이터 분석, 무엇을 분석해야 하는가?
 - 아직 별 명쾌한 대답을 구체적으로 풀어내지 못하고 있는 것이 현실

3가지 축과 2가지 보조
 Dimension 1. 육하원칙 5W1H
  누가 - 고객, 직원, 점포, 라인
  무엇을 - 상품, 서비스, 구매, 이용, 부품, 자재, 시설, 이상, 고장
  언제 - 계정, 시간, 요일, 행사
  어디서 - 지역, 국가, 건물
  어떻게 - 채널, 지불수단, 만족, 속도
  왜 - 좋아서, 불안해서, 편해서, 기분이 나빠서, 우울해서,...

 Dimension 2. 탐색적 데이터 분석의 유형
  - 구조, 구성
  - 차이, 변화, 반복, 주기
  - 속도, 경로
  - 진위, 영향
 
 Dimension 3. Value Chain 상의 기능
  - 이는 결국 일반적인 기업 내의 활동에서의 기능 영역의 범위가 어디인가를 의미한다.
  - 특히 기업에서의 활용 측면에서 보는 경우
  - 고객관리, 채널관리, 품질관리, 마케팅, 서비스, 자재관리, 인력관리
  - Mktg, SVC/CS, CRM, SCM, QM, ... 어떤 분야에 적용하려는가
 
 Additional Dimensions. 두 가지 추가적인 고려사항
  - 하나는 과거, 현재, 미래 중 언제에 대한 분석 결과가 나와야 하는가
     · 과거 중에서도 최근, 그리고 미래 중에서도 단기 미래라는 세부적인 시점에 대한 판단이 필요
  - 나머지 하나는 어떻게 활용할 것인가와 그에 따른 우선 순위
     · 분석 결과로 찾아낸 지식과 정보를 어떤 활동에 적용할 것인가?
     · 어떤 Action을 취할 수 있는가?
     · 어떤 의사결정을 내릴 수 있는가?
     · 누구에게 유용한 정보가 될 것인가? 그리고 우선순위는 상대적으로?
     · 유용성, 시급성, 복잡도, 기타 제약사항, 데이터가 존재하는가?
     · 위와 같은 수많은 분석 대상 중 더 우선적인 것은 무엇인가?
 
가상적 분석결과 사례
 "오늘은 남성, 특히 회사원 층의 사람들이 강남 역 근처에서 회식을 많이 하지 않을 것이다. 이들은 다음 주로 모임을 많이 미룰 것이며 화요일 모임이 특히 많을 것이다."
 - 이를 찾아내기 위해서는 사전에 누가, 언제, 어디서, 무엇을 할 것이며
 - 대신 어떤 일이 다음에 벌어질 것인가로 구성된 분석이 미리 이루어져야 할 것이다.
 - 이 분석의 대상 영역은 마케팅, 그리고 중요도는 높다는 식의 판단도 따라야 할 것이다.
 - 이와 같이 매우 일반적인 후보 분석 대상의 목록을 작성하다 보면
 - 분석을 할만한 내용은 무수히 많이 찾아질 것이다.
 - 어쩌면 너무나 많은 후보들이 도출되는 사태도 벌어질 수 있다.
 
대상 주제의 사례
 - 독감은 어떤 경로로(어떤 속도로) 확산 되는가?
 - 오늘은 어떤 손님이 많이 올 것이며, 어떤 주문이 많이 들어올 것인가?
 - 오늘은 택시를 몇 시에 어디서 잡아야 쉽게 잡힐까?
 
독감의 확산에 대한 분석이 분석 대상 주제로 유용했던 이유는 무엇일까?
 - 독감 확산이야 어차피 정부기관들에서 사후적으로는 통계가 나을 것이겠지만
 - 핵심은 독감 확산을 정부기관보다도 더 '먼저', 즉, 누구보다 빨리 파악할 수 있었기 때문.
 - 그렇다면 더 먼저 파악할 수 있었던 이유는 무엇일까?
 - 통상 빅 데이터라고 부르는 종류의 데이터는 실시간, 그리고 사람들의 검색이나 소셜네트워크 등에서 포착되는 비정형적인 새로운 데이터들이 반영될 수 있기 때문.
 - 얼마나 빨리 정보를 생산할 수 있는가, 그리고 당장 유용한 정보를 찾아낼 수 있는가가 중요한 요인
 - Nearest real-time information, most recent update 여기에 사람들이 가치를 부여한다는 사실
 - 현재 내지는 초단기적인 미래에 대한 정보가 더 가치 있는 정보가 되는 경우가 많다는 점이다.
 - 마케팅이나 커뮤니케이션 사이클이 짧아진다.
 - 정보의 생산과 유통이 이루어지는 사이클이 짧아진다.
 - 정보의 유효기간(또는 유통기간)이 함께 짧아진다.
 - 여기서 독감의 확산이라는 분석이 누구에게 어떤 식으로 가치를 주었는가를 짚어볼 필요가 있다.
 - 분석을 수행한 것은 구글, 검색업체이다.
 - 그 정보를 필요로 하는 곳은 일차적으로 일반 개인들이다.
 - 검색의 사용자라서가 아니라 일반인들도 독감에 대한 사전 경계를 하려는 사람들일 수 있다.
 - 독감 자체가 아니라 구글은 사용자들에게 유용한 정보를 빠르게 그리고 필요한 시점에 제공한다는 가치로 인해 더 많은 사용자를 유치 및 유지할 수 있고, 그 대가로 더 높은 광고수익을 얻을 수 있다.
 - 결국 찾아내는 정보를 직접 사용하는 자와 그 정보를 통해 금전적 이익을 누리는 자가 구분될 수 있다는 시사점을 볼 수 있다.
 
오늘은 어떤 손님, 어떤 주문이 많을 것인가가 분석 대상 주제로 유용했던 이유는 무엇일까?
 - 마찬가지. 초단기적 예측,
 - 즉, 최근의 동향으로 미루어 볼 때 당장 또는 오늘, 조금 있다가 어떻게 신속하게 대응을 해야 하는 가를 결정할 수 있고,
 - 이를 통해 비용을 줄이거나 매출을 늘이기 위한 조치를 취할 수 있다.
 - 음식점이라면 손님의 구성에 따라서 서비스 인력을 일시적으로 늘이거나 줄이는 것이 가능하다.
 - 재료를 추가로 조달하는 것도 가능하다.
 - 유통업체라면 진열을 조절해서 팔릴만한 상품을 더 많이 배치하는 것을 통해 매출을 높이는 것이 가능하다.
 - 일종의 조기경보시스템(Early Warning System)을 운영할 수 있다는 것이다.
 - 흐름에 대한 초 단기 예측이 가능하도록, 사전에 모델이나 패턴을 개발해 두었다가 활용한다는 것이다.
 - 음식점의 예에서도 정보의 직접 사용자는 음식점 주인일 수 있겠지만
 - 만일 음식점에 손님이 갑자기 증가할 때를 대비해 비상인력을 공급하는 업체가 있다면 더 큰 금전적 이익은 그 곳이 누릴 수 있을 가능성도 있다.
 - 그리고 그런 기회를 이해하고 있는 업체라면 이 분석의 주체가 된다.
 
택시를 어디서 잡아야 할 것인가가 분석 대상 주제로 유용했던 이유는 무엇일까?
 - 사람 많은 연말이라면 도심에서 저녁시간 택시잡기는 쉽지 않다.
 - 그러나 어디서 잡는가에 따라서는 훨씬 수월하게 택시를 잡을 수 있다.
 - 문제는 그에 대한 답이 일정하지 않다는 것이다.
 - 날씨나 그날 그날의 상황에 따라 수시로 변화가 있다.
 - 이 때문에 실 시간적인 정보는 가치를 발휘한다.
 - 어디서 택시를 잡으면 얼마나 걸린다는 요약정보를 만들어 낼 수 있다면 그것만으로도 사람들은 좀 더 쉽게 택시를 잡을 수 있는 곳을 찾아낼 수 있다.

제조업체나 유통업체에서 생각해볼 수 있는 두 가지 주제
 - 실 시간적이라는 점이 특별하게 중요한 경우는 아니지만,
 - 기업들이 얻을 수 있는 가치가 크게 기대되는 경우들.
 
제조업체나 유통업체에서...매출둔화 원인 진단과 커뮤니케이션 방향 수정
 - 유통업체의 경우에도 제조업체의 경우에도 전체적으로 또는 특정 상품에서 매출이 줄어드는 것을 파악하는 것은 오늘날의 IT 시스템을 활용해 쉽게 가능하지만
 - 큰 문제는 왜 매출이 줄어들었는가를 파악하는 것이 가능하지 않은 것이 현실이다.
 - 빅 데이터 분석을 위해 소셜네트워크로 부터 획득된 소비자들의 반응이 분석된다면 그 원인을 찾는 것이 가능해진다.
 - 경쟁사의 신제품 출시나 프로모션의 영향인지, 지역이나 상권에 특별한 변화가 있었기 때문인지, 기타 예상하지 못했던 사회적인 이슈(예: 광우병)가 발생되었기 때문인지가 드러날 수 있다.
 - 원인을 찾아낼 수 있다면 기업은 다양한 대처방안을 강구할 수 있다.
 - 물리적으로 제품을 변경하지 않는다고 하더라도 제품에 대한 커뮤니케이션 방향을 변화시키는 것으로도 매출의 둔화를 저지할 수 있을 것이다.
 - 예를 들어 광우병이 특정 제품에 크게 부정적인 영향을 미치고 있다면 제품에 포함된 소고기 관련 성분의 장점을 강조하던 메시지를 다른 기능적인 요소로 변경할 수 있을 것이다.

제조업체나 유통업체에서...소비자 트렌드로부터 제품 컨셉을 개발
 - 새로운 제품을 개발하는 제조업체가 겪는 가장 큰 어려움이 바로 대상으로 하는 소비자들의 마음속에 무엇이 들어 있을까를 파악하는 것이다.
 - 기존에도 신상품 개발을 위한 표본설문조사는 가능했으나 비용이 크고 한가지 목적으로 실시된 조사가 여러 용도로 재사용되기 어려운 문제점을 안고 있어서 실효성이 매우 낮았다.
 - 소셜 데이터를 활용하는 분석을 한다고 해도 한번에 새로운 상품의 구체적인 모습이 바로 드러나지는 않을 것이지만
 - 폭 넓은 소비자층의 요구에 부합하는 또는 특정한 소비자 집단의 특별한 요구에 부합하는 좋은 신상품의 후보들을 찾아낼 수 있는 단서를 제공하는 것은 가능할 것이다.

빅 데이터 분석은 어떤 특성을 가지고 있는가?
 - 빅 데이터 분석이 광고나 R&D 등 사람들의 움직임과 반응이 필요한 곳에 중요한 주제들이 존재한다는 것이다.
 - 또 사람들의 심리적인 상태나 환경적인 변화에 따라서 다른 결과가 나타나게 되는 곳에서도 좋은 분석 주제들이 존재한다.
 - 부동산 시장이나 주식시장은 사람들의 심리가 매우 중요하게 작용하는 영역이다.
 - 실제로 가치가 커지거나 작아지거나 한다기 보다는 사람들이 왜인지 값이 오를 것이라고 믿는다 또는 값이 떨어질 것이라고 믿는다는 점이 결과적으로 시장의 구도를 변화시키기 때문이다.
 - 실체 보다도 심리의 변화와 확산이 중요한 경우이다.
 - 독감에서처럼 생태계의 변화에서도 비슷한 점을 찾을 수 있다.
 - 실제 독감이라기 보다도 알려진, 사람들이 인식한 독감이 중요할 수 있다.
 - 사람들의 머리 속의 인식 변화가 의료 수요를 움직이고 수급 불균형이라는 결과도 낳게 될 수 있다.
 - EMC 같은 스토리지 업체들은 '크기'로 빅 데이터를 정의하는 경우가 있다.
 - 하지만 이는 빅 데이터를 어떤 관점에서 주로 바라보느냐에 따라 달라진다.
 - 다양한 데이터를 빅 데이터로 말하는 업체들도 있고, '속도'에 초점을 맞춰 빅 데이터를 바라보는 업체들도 있다.
 - 중요한 것은 크기, 속도,  형태를 적정하게 갖고 있어야 빅 데이터로 취급할 수 있다는 것이다.
 - 무조건 크기가 크다고, 데이터가 다양하다고 해서 빅 데이터로 보는 것은 아니다.
 - 일례로 한 화장품 회사가 화장품 샘플이 기업 매출에 영향을 미치는 지 등을 조사했다.
 - 그 동안 수집한 고객 정보와 SNS 등을 이용해 마케팅에 실질적인 영향이 미치는지를 살펴봤다. 이는 크기로 봤을 때는 빅 데이터를 가지고 분석한 셈이다.
 - 그 결과, 샘플이 기업 매출에 별 다른 도움을 주지 못한다는 사실이 나왔다.
 - 그런데 막상 샘플을 지급하지 않으니 회사 매출이 급감했다.
 - 사실 샘플을 받은 사람이 직접적인 매출을 일으키진 않았지만 이들이 샘플을 사용하고 올린 감상이나 후기들이 간접 매출을 유발한 것이다.
 - 바로 이런 게 빅 데이터다.
 - 어느 한 가지 요소를 고려한 것이 아니라 전체 그림에서 바라봐야 한다.
 - 모든 데이터를 실시간 단위로 얻을 수 있는 기업은 아직까지 없다.
 - 한 달, 하루, 10분 단위로 정보를 빨리 받을 뿐이다.
 - 다만 빅 데이터를 실시간으로 수집할 수 있는 정보가 결합돼 분석되는 형태를 말한다.
 - 즉, 그간 데이터 분석을 통해 한 여성이 명품을 좋아하는 강남 여자라는 사실을 알게 됐다.
 - 이 여성의 정보는 그간의 근간 데이터를 바탕으로 분석해서 요약한 내용이다.
 - 그런데 이 여성의 휴대폰 위치정보를 통해 강남의 한 명품 매장을 지나가는 것을 파악했다.
 - 이 여성이 그 시간에 그 매장을 지나가는 것은 실시간으로 들어오는 정보다.
 - 이는 실시간으로 분석할 수 있다.
 - 이 실시간 분석을 위해 상당수 기업이 Hadoop을 사용한다.
 - 실시간으로 발생하는 이벤트로부터 특정 패턴을 찾아내 원하는 데이터 서비스가 가능케 도와준다.
 - 사실 이런 서비스는 컴플렉스 이벤트 프로세싱(CEP)이라는 이름으로 이미 존재했다.
 - 소위 빅 데이터라 일컬어지는 것들의 내용물을 보면 웹사이트에서의 검색어, 게시 글(Posting), 또는 페이지뷰(어떤 콘텐츠를 많이 보았는가) 등이 주종을 이룬다.
 - 이들의 주요한 특성은
    · 거의 실 시간적으로 포착될 수 있다는 점. Near Real-time Data Capture
    · 거래와 같은 구체적인 행위 이외의 내용을 담은 데이터가 포착된다는 점. Soft Data Capture
    · 사건이 발생되는 위치가 포착될 수 있다는 점. Location Data Capture
 - 빅 데이터는 꼭 이 세가지를 모두 충족하는 경우가 아니라
 - 그 중 일부를 포함하는 경우라면 조건이 성립된다고 보는 것이다.
 - 빅 데이터의 사이즈가 커지게 된 이유도 근본적으로 이 세가지 특성에서 출발한다.
 - 하지만 빅 데이터냐 아니냐에 대한 이분법적인 구분은 실용성이 크지 않다.
 - '빅'이라는 것은 결과이지 원인이나 목적이 아니다.
 - 기존에도 POS 시스템을 통해 포착되는 거래 데이터에서 편의점의 매출 변화를 바탕으로 실시간에 가까운 단기적 상품별 매출 변화 예측이 불가능했던 것은 아니다.
 - 일기예보에 비해 날이 더 춥게 느껴졌고, 그 때문에 특정 지역의 편의점에서 따뜻한 음료가 평소 보다 또 예상 보다 더 팔려갈 수 있을 것을 예상할 수 있다.
 - 일기예보와는 달리 비가 좀 일찍 그친다면 우산의 판매를 일찍 종료시킬 수 있을 것이다.
 - 이들은 거래 데이터만으로도 파악이 불가능한 것은 아닐 수도 있다.
 - 다만, 좀 더 많은 데이터, 좀 더 다양한 데이터가 투입된다면 좀 더 정확하고 구체적인, 또 사람들의 심리적인 변화에 따른 영향도 파악될 수 있다는 점에 차이가 있는 것이다.
 - 데이터 분석의 가치는 절대적인 것이 아니라 그 결과를 활용하는 사람으로부터 어떤 평가 내지는 인정을 받을 수 있는가가 좌우한다.
 - 결국 가치는 사람이 판단하고 부여하는 것이지 실체가 존재하는 것이 아니다.
 - 지나치게 많은 자원을 그다지 큰 차이로 나타나지 못할 일에 투입하는 것은 상식적으로도 매우 어리석은 일이다.

더 좋은 주제를 실수 없이 찾기 위한 Core Tips?
 - 비록 반복적으로 그리고 시행착오를 거쳐 좋은 결과를 얻을 수 있을지언정 사전에 충분한 노력을 투입해서 분석을 기획하라.
 - 분석에 꼭 빅 데이터가 필요한가를 확인하라. 그리고 어떤 빅 데이터가 필요한가를 확인하라.
 - 분석 결과와 활용처간의 조합을 조금씩 바꿔 보면서 반복적으로 분석을 실시하라(Plan while doing).
   · 한 번의 분석은 그것으로 끝나는 것이 아니므로 경우에 따라 한 분석이 한 곳에는 유용하게 활용되지 못하더라도 같은 내용이 다른 사람에게 유용한 정보가 되거나 다른 용도로 유용해 질 수 있다는 기본 원리를 기억하라.
 - 데이터 마이닝의 도입기에도 웹마이닝의 도입기에도 기대는 컸으나 그만큼의 과실이 얻어지지 못했던 경험을 가지고 있다.
 - 기술의 차이(특히 하드웨어와 소프트웨어 적인)도 크게 작용했지만 무엇을 어떻게 분석하는가 그리고 왜 분석하며 누구에게 그 결과를 사용하게 할 것인가에 관한 부족했던 준비와 역량도 크게 영향을 주었던 경험을 이미 가지고 있다.
 - 데이터 마이닝은 툴이 자동으로 결과를 찾아낼 것이라는 환상 덕분에 오히려 나락으로 빠졌고,
 - 웹 마이닝은 아직 그다지 성장하지 못한 닷컴기업들을 주된 수요처로 한다는 점에서 시기적으로 붐을 조성하는데 한계가 있었다.
 - 데이터를 분석하는 게 상당히 고되다. 데이터 분석이 끝이 아니기 때문이다.
 - 빅 데이터 분석이 끝나고 나서 검증 작업이 필요하다.
 - 전수 검사를 한다. 이 검사에 6개월이 넘는 시간이 들어간다.
 - 개발자 피를 말리는 시간이다. 이 과정을 통과해야 드디어 빅 데이터 분석을 통한 의미 있는 결과를 얻어낼 수 있다.
 - 빅 데이터 중에서 올바른 데이터가 있고, 아닌 데이터가 있을 수 있다.
 - 이를 발견하기 위해 검증 과정은 반드시 필요하다.
 - 쇼핑몰 같은 데서 보면 추천 기능이 있지 않은가.
 - 이 기능이 올바로 작동하려면 검증 과정이 필수다.
 - 소비자 선택에 따라 이에 매칭되는 쇼핑 상품들을 제공해 줄 수 있어야 하기 때문이다.
 - 단순히 알고리즘 돌린다고 해서 이런 결과가 나오는 것이 아니다.
 - 그렇기 때문에 데이터를 알고 있는 기획자와 시스템을 알고 있는 개발자가 붙기 마련이다.
 - 이들이 서로 원활하게 의사소통하며 작업하는 것도 중요하다.
 - 예를 들어 어떤 주제 아래 분석을 하고 싶다고 로그데이터를 요청하면 그 로그데이터를 바탕으로 어떤 분석이 가능할 지 기획자가 판단한 다음, 개발자가 이에 맞는 환경을 만들어 주는 것이 중요하다.
 - 다만 기업들은 이 과정을 상당히 무자비하게 진행한다.
 - 대형 SI업체와 일했을 때처럼 일정 기간을 주고 이 안에 빅 데이터 분석을 하고 결과를 만들어 내라는 식이다.
 - 빅 데이터의 규모와 정의조차 파악하지 못하고 접근하게 되면 올바른 결과를 얻을 수 없다.

빅 데이터 분석, 첫 술에 배부르랴?
 - 아직은 어떻게 비정형 데이터로부터 분석을 위한 중요한 변수를 설계할 것인가, 변수가 많아질 경우 어떻게 축소 시킬 것인가, 환경변화와 데이터의 편중에 따른 Bias를 어떻게 처리할 것인가 등
 - 하드웨어와 소프트웨어 이외에도 많은 기술적 이슈들까지 많은 풀어야 할 숙제들이 남아있기는 하지만,
 - '빅 데이터 분석'은 어쩌면 데이터 분석의 확산과 발전을 위한 매우 중요하고 결정적인 계기가 되어 줄 지도 모른다는 기대를 해본다.
 - '빅'이라는 단어가 풍기는 뉘앙스에서 처럼 무언지 모를 거창함이 기대되기도 한다.
 - 이 기대가 물거품으로 끝나지 않게 되려면 더 좋은 그리고 겉보기에도 팬시한듯한 하지만 실용적인 분석 대상들이 잘 찾아져야 할 것이다.

"끝"