‘빅데이터’라는 단어가 세상에 등장한 지 약 10년이 지났다. ‘권불십년’(權不十年·권력은 오래 가지 못하고 늘 변한다)이라는데 빅데이터는 날이 갈수록 임팩트가 거세다. 빅데이터는 전문지식을 갖춘 일부 학자나 엔지니어의 영역이 아니라, 평범한 샐러리맨의 생존을 위한 필수 교양이 됐다. 빅데이터는 2013년에 미국 언어리서치 전문기관인 글로벌 랭귀지 모니터(GLM)가 선정한 가장 헷갈리는 단어 1위를 차지했다. 불과 최근까지도 실체가 잘 파악이 안 되는 애매한 단어였다. 그런데 이제 안개가 걷히고 빅데이터라는 거대한 실체가 뚜렷이 사회중심부에 자리 잡고 있다.
빅데이터 기술의 태동은 언제일까. 2005년쯤으로 거슬러 올라간다. 야후의 엔지니어였던 더글러스 커팅이 많은 수의 컴퓨터를 연결해 하나의 큰 스토리지처럼 사용할 수 있는 소프트웨어를 개발해 공개한다. 그는 소프트웨어의 이름을 아들의 코끼리 인형이름을 따 명명했다. 그 소프트웨어의 이름이 ‘하둡’이다. 그전까지는 대용량의 데이터를 저장하고 검색하기 위해서는 매우 고가의 저장장치를 필요로 했다. 하둡이라는 소프트웨어를 이용해 비로소 방대한 양의 데이터를 싼값에 관리할 수 있게 된 것이다.

하둡이라는 이름의 간단한 소프트웨어가 세상에 등장하면서 빅데이터 시대의 여명이 밝아오기 시작한다. 서너 대의 컴퓨터 연결로 시작된 하둡 소프트웨어는 지난 십수년간 지속적으로 발전했다. 2020년까지 전 세계 하둡 관련 세계시장 규모는 20조원 정도 될 것으로 예측되고 있다. 두 명이 시작한 소프트웨어가 수십 개의 스타트업(신생 벤처기업)을 탄생시키고 20조원 시장을 생성할 것으로 예측되는 것이다. 빅데이터 관련 소프트웨어의 파괴력을 여실히 보여주고 있다.
데이터를 다루는 능력 함양은 전공을 불문하고 이제 선택이 아니라 필수다. 직장인 사이에서 데이터 분석용 통계패키지에 대한 그룹 스터디가 붐이다. 주어진 데이터의 평균과 분산을 구한다. 이를 그래프로 표현한다. 각 인자 간의 상관관계를 구하고, 인과관계 성립 여부를 가설을 이용해 신뢰도 분석을 해본다. 통계학 전공생의 이야기가 아니다. 직장인이 해보는 빅데이터 분석도구 실습사례다. 미국의 하버드, 스탠퍼드 등 일류 대학을 필두로 데이터 사이언스 대학원 전공과정이 개설되고 있다. 인기 폭발이다. 각종 데이터를 수집하고, 이를 위한 데이터베이스(DB)를 구축하고, 소프트웨어 프로그램을 사용해 이를 분석하는 기법을 학습한다.
데이터가 쏟아져 나온다. 사거리마다 설치돼 있는 방범 카메라, 시내도로에 설치돼 있는 통행량 감지장치, 유료도로 입구의 차량번호판 인식기, 온도·습도·미세먼지 관리 시스템이 시시각각으로 데이터를 생성해낸다. 이뿐인가, 집안의 실내온도·습도, 냉장고의 온도·습도·각 식자재량, 자동차의 엔진효율·연료효율·산소농도·온도 등을 측정하는 최첨단 센서가 온갖 숫자를 뿜어낸다. 폭발적인 데이터의 생성이 빅데이터 시대에서 초대형 데이터 시대로의 전이를 가속화시키고 있다.
이를 분석하고 새로운 특성을 파악해 새로운 사업기회를 모색하는 것은 인간의 영역이다. 데이터의 금맥이 눈앞에 있다. 이를 제대로 캐내는 것은 우리의 몫이다. 고액 연봉의 상징인 월스트리트에서 요즘 가장 선호하는 인재는 박사학위를 소지하고, 데이터 분석능력을 겸비한 인력이다. 앞으로 세상은 데이터를 다룰 줄 아는 인간과 그렇지 않은 인간 두 부류로 나뉠 것이다.
빅데이터의 중요성이 대두되는 이즈음에, 2015년 9월 발의된 빅데이터산업 진흥법은 별다른 이변이 없는 한 19대 국회 종료와 더불어 자동 폐기될 전망이다. 법과 제도가 기술과 시장의 요구에 시의적절하게 대응하지 못한다면 존재의미가 없다. 조직의 역량은 그 조직의 빅데이터 분석속도를 넘지 못한다. 데이터를 지배하는 자가 세상을 지배할 것이다.
원유집 한양대 교수·컴퓨터공학
원문링크: http://www.segye.com/content/html/2016/05/04/20160504002999.html