일상을 바꾸는 과학, 데이터 분석

기자명 김원구 (kwg0328@skkuw.com)

몇 년 새 ‘빅데이터’가 화두다. 소위 말하는 4차 산업혁명의 주요 키워드 중 하나로 꼽히는 ‘빅데이터’. 포털 사이트의 인기 검색어나 온라인 쇼핑몰의 큐레이션 등 우리는 알게 모르게 ‘빅데이터’의 영향 아래 살고 있다. 사실, ‘빅데이터’는 전혀 새로운 개념이 아니다. 우리 일상에 녹아있지만, 알 듯 말 듯 한 ‘빅데이터’. 통계학과 관련해 그 실체를 알아보자.

빅데이터라지만 데이터와 분석 방법에 근본적 차이 없어
김 교수, "아직도 기존 통계 기법 많이 쓰여"

데이터가 만드는 세상
IT 자문기관 ‘가트너’에 따르면, 오늘날 데이터의 특성은 ‘3V’다. ‘3V’는 데이터가 △다양해지고(Variety) △발생 속도가 증가했으며(Velocity) △크기가 커졌음(Volume)을 의미한다. 인터넷과 모바일 기기가 생필품처럼 사용되며, 기존의 숫자 데이터에 이제는 그림, 동영상, 음성 등도 가세했다. 이에 따라, 데이터 생성 주기도 짧아지며 데이터의 양도 빠르게 폭증하고 있다. 기존 데이터에 다양한 사진, 음성, 텍스트 데이터가 더해지며, 오늘날 데이터는 소위 ‘빅데이터’라 불린다.

한편, 정형 데이터는 기존의 행과 열로 이뤄진 데이터이고, 비정형 데이터는 음성이나 이미지, 텍스트 같은 데이터다. 비정형 데이터는 행렬과 같은 정형 데이터로 변환해야 분석할 수 있다. 따라서 데이터 변환 기법들이 많이 개발됐다. 황영덕(통계) 교수는 “소위 말하는 빅데이터 분석은 대부분 이런 작업을 거친 데이터에 대한 분석”이라고 말했다. 이어, “오늘날 빅데이터 분석이라 불리는 것의 중요한 의미는 우리 삶에 직접적 영향을 주는 점”이라며 “대부분 서비스에 필요한 이론은 이미 예전에 다 정립돼 있던 것이다. 그런데 그것이 실제 서비스로 구현되며 일상을 바꾸고 있다”고 오늘날 데이터 분석의 의의를 설명했다.

이렇듯, 데이터가 다양해지고 많아지며 여러 분야에 빠짐없이 활용되고 있다. 많은 소셜커머스 또한 고객의 소비 패턴을 분석한다. 이를 통해, 누가 언제 무슨 상품을 살지 예측해 주문 전에 미리 재고를 준비한다. ‘마켓 컬리’같은 경우 고객 데이터를 기반으로 재고를 예측 관리해 오후 11시까지 상품을 주문하면 다음 날 오전 7시까지 상품을 받을 수 있는 ‘샛별 배송’을 내세운다. 의료 분야에서도 데이터 분석은 빠질 수 없다. 국민건강보험공단에서는 감기, 눈병, 식중독, 천식, 피부염을 5대 유행성 질병으로 선정해 ‘국민건강 주의 알람 시스템’을 운영한다. 이 시스템은 기간별 진료데이터 및 SNS상의 키워드 빈도수를 통해 질병을 예측한다.

빅데이터는 새로운 데이터?
그렇다면 이러한 빅데이터는 새로운 데이터일까? 이에 대한 답은 ‘아니다’이다. 다들 빅데이터를 말하지만, 근본적으로 데이터는 바뀌지 않았고, 분석 방법도 크게 달라지지 않았다. 김재직(통계) 교수는 “컴퓨터 기술이 발전해 방대한 데이터도 다룰 수 있게 됐지만, 통계학자 입장에서 보면 분석하는 툴이 크게 바뀌지는 않았다”고 설명했다.

다만, 데이터가 다양해지고 방대해지며 분석 방법의 사용 빈도에는 차이가 있다. 데이터 분석은 ‘확증적 데이터 분석’과 ‘탐색적 데이터 분석’으로 나뉜다. 황 교수는 “확증적 데이터 분석은 특정 데이터로부터 알고 싶은 질문에 대한 답을 얻고자 하며, 탐색적 데이터 분석은 특정 목적으로 모은 데이터가 아닌 다른 이유로 수집한 데이터로부터 새로운 지식을 얻고자 한다”고 설명했다. 그는 “과거와 오늘날 데이터 분석의 차이점은 과거에는 문제와 데이터의 관련성이 확실했다면 지금은 그렇지 않은 것”이라고 말했다. 과거의 데이터 분석은 주로 ‘확증적 데이터 분석’이었다. 특정 문제에 대한 데이터를 얻기 위해서는 설문 조사나 인터뷰 등을 해야 했기에 비용이 많이 들었다. 따라서 표본 크기에 현실적 제한이 있어, 계층마다 무작위로 뽑는 등 최대한 표본이 모집단을 대표하도록 확률 표집을 했다. 이를 통해 가설을 검증하고, 모수를 추정해 나갔다.

오늘날 방대한 데이터는 대부분 문제에 대한 답을 찾기 위해 모은 데이터가 아니다. 황 교수는 “버스카드 데이터는 요금 지불을 확인하기 위한 데이터지만, (버스 노선 신설 등) 다른 목적을 이루고자 하는 것이 소위 요즘 말하는 빅데이터 분석”이라고 말했다. 이어 그는 “이런 경우에는 기존 분석 방법의 단순한 적용이 아닌 다른 방식의 접근이 필요하다”고 말했다.

오늘날 ‘빅데이터’ 붐처럼, 1990년도에도 ‘데이터 마이닝’ 붐이 일었다. 인터넷이 보편화되며 각 기관의 DB(데이터베이스)에 데이터가 막대하게 쌓여 왔다. DB 관리비용이 계속 늘어나는 상황에서 이를 이용해 새로운 가치를 창출하려는 시도가 시작됐다. 기업에서는 이를 마케팅에 활용하거나 제품생산 불량률을 낮추는 일 등에 활용했다. 황 교수에 따르면, ‘데이터 마이닝’은 탐색적 데이터 분석인데, 새로운 정보를 파악해보자는 의도를 갖는 분석 기법이다. ‘데이터 마이닝’의 예로는 CRM(고객 관계 관리)이 있다. 기업은 그들이 가진 고객 데이터를 기반으로 고객의 행동을 파악하고 전략을 세운다.

과거의 데이터 마이닝에 대해 김 교수는 “90년대 데이터 마이닝은 데이터를 어떻게 효율적으로 저장하고, 원하는 정보만을 빨리 볼 수 있을지를 고민했다”고 말했다. 이어 그는 “그때도 데이터가 매우 크다고 말했으나, 그 크기는 현재 PC로 다룰 수 있는 정도였다”고 말했다. 이는 오늘날 용량이 큰 데이터 분석이 주로 *클라우드 컴퓨팅으로 이뤄진다는 것과 대비된다. 한편, 이 당시의 데이터 마이닝을 통해 현재 상태를 효율적으로 관리할 수는 있어도, 미래에 대한 예측은 효과적으로 할 수 없었다. 김 교수는 “그때는 (현재 상태를) 관리하는 데만 집중했다”며 그 이유를 밝혔다.

물 만난 고기, 빅데이터 만난 컴퓨터
최근에는 현 상태에 대한 효율적 파악보다는 앞으로의 상황에 대한 예측에 관심이 커지고 있다. 또한, 인공지능의 한 분야인 ‘머신러닝’ 등 분석 방법도 다양해졌다. 이에 따라, 기존 분석 기법도 지향점이 바뀌었다. 예를 들어, 오늘날 데이터 마이닝은 미래 상황을 예측하기 위한 기법으로 쓰인다. 김 교수는 “통계학에서는 데이터 마이닝과 머신러닝을 굳이 구분하지 않는다”며 “데이터를 분석하는 툴이 같기 때문”이라고 그 이유를 밝혔다. 황 교수는 머신러닝에 대해 “컴퓨터가 반복되는 행동의 패턴으로 학습해 사람이 했던 분류 작업 등을 하는 것”이라고 요약해 설명했다. 이어 “입력값에 대해 학습된 것이나 데이터를 통해 스스로 검정하는 부분에서 통계학이 인공지능의 근간을 제공하고 있는 것은 사실”이라고 언급했다.
한편, 또 다른 인공지능 분석 기법으로 주목받은 ‘인공신경망 기법’은 엄밀하게는 ‘딥러닝’을 말한다. 머신러닝과 딥러닝의 차이는 사람의 개입 여부다. 머신러닝은 최소한의 사람의 개입을 통한 기계 학습이지만, 딥러닝은 사람의 개입이 없다. 김 교수는 “머신러닝은 예측하고자 하는 값에 대한 변수를 인간이 골라 입력하지만, 딥러닝은 처음부터 모든 변수를 넣어 기계가 알아서 가중치를 부여해 고르게 한다”며 둘의 차이를 설명했다. 딥러닝이 빅데이터와 함께 묶이는 이유는 데이터가 많아야 딥러닝의 예측이 정확해지기 때문이다. 김 교수는 “딥러닝의 초기 모형은 1950년대에 처음 나타났을 정도로 오래됐는데, 요즘에는 컴퓨터의 연산력도 좋아졌고, 매일매일 데이터가 모이는 시대니 주목을 받는 것”이라고 빅데이터와 딥러닝의 관계를 말했다.

변화하는 시대에 통계학의 위치
한편, 머신러닝과 같은 통계 분석은 예측에 대한 설명이 가능하지만, 딥러닝은 왜 그 예측이 나왔는지에 대한 ‘설명 가능성’이 부족하다. 이에 대해 김 교수는 “딥러닝은 모형이 복잡하므로 결과를 해석하기 힘들다. 딥러닝은 뉴런과 시냅스를 모방했다고 하는데, 이에 근거하면 인간이 생각의 이유를 쉽게 설명하기 힘든 것과 같다”고 설명했다. 하지만, 실생활의 많은 부분에는 설명이 필요하다. 예를 들어, 기업은 특정 고객층이 왜 특정 상품을 좋아하는지 알아야 전략을 수립할 수 있다. 이유를 알려면 분석 모형을 설명할 수 있어야 하고, 모형을 설명하려면 통계적 방법론을 이용해야 한다.
또한, 김 교수는 “세상에는 빅데이터만 있는 게 아니며 아직도 기존의 통계 분석 기법은 굉장히 많이 쓰인다”고 말했다. 예를 들어, 신약 개발의 임상시험에는 비용이 많이 들기 때문에 표본 수가 많지 않다. 적은 표본으로도 효과나 무해성을 검증해야 하므로 결국 통계 모형으로 돌아와야 한다. 이렇듯, 통계학은 과거와 현재가 어느 하나 빠지지 않고 공존하며 삶을 바꾸고 있다.