기자명 지웅배 기자 (sedation123@skkuw.com)

모집단 특성에 대한 연구, 추정과 검정
통계학, 분야 넘나들며 활용돼

대형 할인점 앞에 소비자는 간장 하나를 선택하는 문제로도 골머리를 앓는다. 하물며 더 중요하고 불확실한 선택지 앞에서, 보다 나은 결정의 어려움이라면 말할 것도 없다. 이처럼 다양하고 방대한 정보로 얽혀있는 현대 사회 속에서 합리적 결정은 매우 중요하다. 이에 대해 김재직(통계) 교수는 통계학이 도움을 줄 것이라고 말한다. 

모집단에 대한 궁금증
김 교수는 통계학의 목표가 “관심을 가진 모집단의 특성을 분석하는 데 있다”고 설명한다. 그 방법으로, 해당 모집단 전체를 조사하는 ‘전수조사’를 실시한다면 이론적으로 더욱 정확한 수치를 얻을 것이다. 하지만 예산이나 인력 등의 현실적인 문제로 인해 대개 표본을 추출하는 ‘표본조사’를 실시한다. 이처럼 표본을 조사 및 분석해서 모집단의 특성을 추정하는 학문이 통계학이다. 또한, 그는 최근 통계의 위상이 높아지게 된 배경에는 “데이터의 양적 증가”가 있다고 설명한다. 특정 집단에서 시스템 유지를 위한 데이터 축적은 비용과 공간의 문제로 이어졌으며 정리 및 보관, 이용 방법 등에 대한 고민이 증가했다는 것이 그의 설명이다. 고객의 정보를 이용한 마케팅, 기계의 결과물들을 조사해서 공장의 불량률 저하, 기타 문제 예방 등의 활용 방안을 찾고자 하는 노력이 계속됐고 그 답으로 통계가 제시된 것이다.

합리적인 결정 방법
김 교수는 “통계학은 객관적으로 분석된 자료를 제공한다”고 말한다. 이를 통해서 의사결정자는 결정의 기댓값과 위험을 수량화해 추측할 수 있으므로 판단의 방향을 모색할 수 있다. 과거 의사결정자는 직관에 의존해 결정을 내렸지만, 전문 경영인 체제가 도입되고 체계적인 경영을 추구하게 되면서 합리적인 의사 결정이 중요해졌다. 결정에 대한 근거를 제시해야만 하는 상황이 된 것이다. 잘못된 결정에 대해서 결정자 개인이 아닌 통계 분석에 책임을 두게 된다. 물론 이같이 선택의 책임이 요구되는 상황이 아니더라도 합리적인 결정을 내려야 하는 상황이라면 통계의 중요성은 여전히 유효하다고 그는 설명한다.

피할 수 없는 오차
통계학은 오차의 학문이라고 말할 수 있다. 김 교수는 “오차가 없는 세상이라면 수학에서 다루는 함수처럼 같은 조건 값을 넣으면 같은 결과 값이 나올 것”이라고 말한다. 세상의 모든 문제를 수학 모형으로 예측할 수 있다는 뜻이다. 그러나 실제 세상은 그렇지 않으며 변동을 지닌 값으로 나온다. 예를 들어 온도나 습도를 같은 값으로 통제해도 같은 결과 값은 나오지 않는다. 이런 상황이 오차이다. 그는 “오차가 만들어내는 변동 폭을 수량화시켜 예측하는 것이 중요하다”고 설명한다. 이 폭이 의사결정에 매우 중요한 고려요인이기 때문이다. 오차가 넓어질수록 예측한 정보의 의미는 퇴색된다. “흔히들 말하는 ‘95%의 신뢰도’라는 표현은 5% 정도는 틀릴 가능성이 존재한다는 설명이다.” 틀릴 가능성도 구체적으로 예측하기 때문에 위험도 수량화가 가능하고 이는 곧 합리적인 의사결정으로 이어질 수 있다는 것이 그의 설명이다. 즉, 통계학은 오차의 존재로 인해 형성될 수 있었다.

추정하고 검정하다
김 교수는 “통계학의 대표적인 방법론에는 추정과 검정이 있다”고 설명한다. “추정이란 단어의 의미 그대로 ‘결과 값을 추측하는 행동’을 뜻하며, 점추정과 구간추정으로 나눌 수 있다.” 점추정은 해당 결과 값을 하나의 값으로 추정하는 방법이다. 예를 들어 신용평가 과정에서 나이, 직업, 월급 등을 바탕으로 한 사람의 신용점수가 매겨질 것이며 이러한 지표가 점추정에 해당한다. 반대로 구간추정은 해당 신용점수를 구간으로 추정하는 방법이다. 그는 점추정의 대표적인 예로 인공지능이 있다고 설명한다. “인공지능은 데이터의 양이 매우 많다는 가정에서 추정하기 때문에 점추정의 형태를 띤다.” 데이터가 많아질수록 오차의 폭은 줄어든다. 그렇기에 거의 무한에 가까운 양을 가정하는 인공지능의 경우 오차가 0으로 수렴하고 예측값이 점이 된다. 예를 들어 인공지능이 개와 고양이 그림을 올바르게 선택해야 한다면 그림과 결정을 연결짓는 점추정의 방법 외에는 존재하지 않는다. 무인자동차가 갈림길에서 방향을 결정해야 하는 문제도 마찬가지다. 한편 구간추정은 데이터의 양이 소수인 실험이나 표본조사에서 오차를 고려해야 하기에 더 의미를 지닌다고 볼 수 있다.

특정 모집단의 특성을 추정했다면 해당 추정에 대한 검정 과정으로 넘어간다. 검정은 추정이 실제로 맞는지 확인하는 과정으로 현재 상황과 큰 차이가 없다는 가정인 ‘귀무가설’과 큰 차이를 보일 것이라는 가정인 ‘대립가설’, 두 가지 가설을 통해서 이뤄진다. 이처럼 가설을 세우는 방법을 특별히 ‘가설검정’이라고 부른다. 귀무가설을 채택할 경우 현재와 큰 차이가 없으므로 위험이 적고 반대로 대립가설은 큰 위험을 동반한다는 것이 그의 설명이다. 새로운 기계를 도입할 경우 기존 기계와 성능을 비교해 볼 때 차이가 없다는 가정이 귀무가설이며 변화가 없기에 위험이 적다. 차이가 존재한다고 예측하는 가정은 대립가설로 변화에 필요한 비용, 노력 등이 요구되므로 위험이 수반된다. 특정 집단에게 위험이 적은 상황이 안정적이므로 귀무가설이 사실이라는 가정에서부터 시작한다. 귀무가설이 맞을 때 관찰 가능한 데이터의 분포와 형태를 추측한다. 그리고 실제 관찰된 데이터가 앞서 가정한 상황에서 일어날 법한 일인지 확률적으로 계산한다. 만약 일어날 법한 일이라는 결론을 얻으면 귀무가설을 채택한다. 반대로 굉장히 희귀한 사건이라고 결론이 나오면 귀무가설을 기각하는 식이다. 그는 “여기서 일어날 법한 일인지에 대한 판단은 연구자가 결정하는데, 흔히들 말하는 ‘유의수준 α(이하 α)’가 이에 해당한다”고 말한다. 예를 들어 연구에서 α=0.05로 정했다면, 연구는 실제 효과가 없는데 효과가 있다는 결론이 도출될 가능성을 5%미만으로 잡아야만 임상시험 결과의 유효성을 인정하겠다는 뜻이다. 

분야를 넘나들다
통계학이 이용되는 분야는 무궁무진하다. 그는 “대표적인 예로 기상이나 약물 개발 등을 들 수 있다. 그러나 흔히들 생각하는 일기예보에는 통계 모형이 쓰이지 않는다”고 설명한다. 대기에 영향을 줄 수 있는 요인이 너무 많아 긴 계산 시간이 필요하지만, 예보 특성상 신속성이 필수적이기 때문이다. 대신 슈퍼컴퓨터를 이용해 복잡한 미분방정식의 해를 구함으로써 빠르게 예측한다는 것이 그의 설명이다. 통계가 이용되는 기상 예측은 지역에 따른 기온 차이와 같이 장기적이거나 지속적인 분석이 있다. 또한 약물을 개발하는 일련의 과정은 통계 모형을 통해 이뤄진다. 예를 들어 연구자는 특정 질병에 대한 치료제를 개발하려고 한다. 이를 위해서는 원인을 파악해야 한다. 여러 유전자가 존재할 때 각 유전자가 질병마다 보이는 행동이 다르다. 특정 병에 대해서는 A라는 유전자가 병을 발현시키는 역할일 수 있지만 다른 병에서는 이상행동을 보이지 않을 수 있다. 이 때문에 질병과 유전자의 연관관계를 조사해야 하는데 비용문제로 전수조사는 불가능하므로 통계학이 유용하게 쓰인다. 해당 병에 발현 가능성을 지닌 유전자를 소수로 추리고 나면, 해당 질병의 치료를 위한 약물 생성과 개발된 신약의 효능 검증까지도 통계가 개입한다. 미국 FDA에서는 임상시험 결과에 관한 판단 과정에는 통계학자의 의견이 포함돼야만 통과할 수 있다. 그 결과 미국은 통계학과와 별개로 생물통계학과가 존재하며 그 규모가 우리나라에 비해 매우 거대하다.

한편 컴퓨터의 발달과 맞물려 통계를 이용한 빅데이터의 분석 방법도 주목을 받고 있다. 그는 통계학을 이용한 빅데이터 분석의 전망에 대해 “크게 인공지능 속에는 머신러닝이 있으며 그 중 딥러닝이 가장 주목받고 있다”며 “이 같은 방법들은 다량의 데이터를 분석하는데 특화돼 있어 앞으로 이용될 가능성이 무궁무진할 것”이라고 덧붙였다.