대한 이비인후과학회 웹진 134호

통계 이야기: 확률과 우도비 0 수서서울이비인후과 최효근

최효근 엠디에널리틱스 대표는 서울대학교 의과대학 학사/석사/박사를 졸업하고, 서울대병원에서 이비인후과 전공의, 전임의를 수료한 뒤 한림대학교에서 10년간 빅데이터에 대한 연구를 하여, 총 307편의 SCI 논문을 주저자로 작성을 하였습니다. 엠디에널리틱스는 각종 빅데이터에 대한 자료 분석 및 연구의 통계 방법, 대상자 수 분석, 리뷰어의 통계 질문에 대한 답변 같은 통계 자문 서비스를 제공하고 있습니다. 본 연구자는 이전에 웹진에 4회에 걸쳐 투고하였던 통계 이야기에 대한 후속편 4회를 연재하려고 합니다.

확률(Probability)

게임에서 이길 확률이 높다든가 복권에 당첨될 확률보다 벼락 맞을 확률이 높다든가 하는 말들로 확률은 논문을 작성할 때뿐만 아니라 일상생활에서도 많이 사용된다. 그로 인해 이에 대해 어렴풋이 이해하고 있는 경우가 많을 텐데, 간단히 말하자면 확률은 어떤 사건이 일어날 가능성이다. 예를 들자면, 1부터 6까지 있는 주사위를 굴려 1의 눈이 나올 확률은 1/6이고, 임의로 주사위를 조작하지 않았다면 각각의 수가 나올 확률 역시 1/6로 같다. 그렇다면 주사위를 6번 굴리면 1부터 6까지의 수가 하나씩 나올까? 그렇지 않다는 것을 모두 잘 알고 있을 것이다. 그럼 1의 눈이 나올 확률이 1/6이라고 어떻게 말할 수 있을까? 주사위를 6번 던졌을 때, 1이 3번, 6이 3번 나왔다고 가정하자. 1과 6은 각각 50%의 비율로 나왔지만 이 주사위를 60번, 600번, 6,000번, 그 이상으로 던지는 횟수를 늘리다 보면 다른 숫자들도 나오게 되고 50%의 비율이 점점 떨어져 결국 모든 수의 비율이 1/6이 될 것이기 때문이다.

우도(Likelihood)

확률과 비슷한 듯 다른 개념이 있다. 바로 우도다. 설명을 보다 쉽게 하기 위해 이번엔 주사위가 아닌 동전 던지기를 한다고 하자. 앞면과 뒷면이 나올 확률이 각각 50%가 아니라 조작을 통해 다른 확률을 가지고 있으나 아직 우린 그 확률을 모르는 동전이라고 가정해보자. 동전을 100번 던져 앞면이 70번, 뒷면이 30번 나왔다고 하면, 앞면이 나올 조작된 확률은 50%, 60%, 70% 중에 70%가 가능성이 가장 높고, 이 확률이 이 동전의 특성을 가장 잘 설명한다고 볼 수 있다. 그리고 이는 우도가 가장 높다고 볼 수 있다. 이러한 우도는 높을수록 샘플을 가장 잘 설명한다고 할 수 있고, 회귀분석에서 모형을 선택할 때 사용되곤 한다. 우도의 값이 높을수록 예측률이 높으므로 최적의 모형을 선택하기 위해 우도가 가장 높은 모형을 선택하곤 한다.

변수 선택 방법

최적의 모형을 선택하기 위해 우도가 가장 높은 모형을 선택했다면 최적의 변수들을 선택했을 가능성이 높다. 간암에 대한 모형을 선택하기 위해 나이, 성별, 음주량, 흡연량, 직업, 결혼여부 등 여러가지의 변수들을 선택할 수 있고, 최대한 많은 변수들을 포함할수록 모형의 설명력은 높아질 것이다. 그러나 결혼여부와 같이 설명력이 매우 낮은 변수들까지 포함시키게 되면 모형이 해당 데이터에만 과적합(Overfitting)될 수 있다. 과적합이란 일반적인 특성뿐만 아니라 예외적인 특성이나 설명력이 낮은 변수들까지 모형에 과도하게 적용하여 새로운 데이터를 모형에 넣었을 때 오히려 예측의 정확도가 낮아지는 현상이다.

과적합되지 않으면서 가장 적합한 모델을 선택하기 위해서는 모델을 구성하는 적절한 변수를 선택해야 한다. 변수 선택 방법에는 3가지가 있는데, 아무런 변수가 없는 상황에서 변수를 하나씩 선택하는 전진 선택법과 전체 변수를 넣고 하나씩 빼는 후진 소거법, 변수 조합의 모든 경우의 수를 고려하여 전진과 후진의 장점을 합친 단계적 방법이 있다. 이중 단계적 방법이 가장 많이 쓰이며, 변수를 선택할 때 AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion)값이 가장 적은 모형을 선택하게 된다.

AIC 값을 구할 때는 우도를 통해 모델이 데이터와 적합한지를 보면서도 변수의 개수를 확인하여 불필요한 설명변수가 너무 많이 포함되어 있지는 않은지 확인한다. 이 모형을 통해 보다 단순하면서도 설명력이 높은 모델을 선택할 수 있다. 그러나 표본수가 커질수록 이상치나 결측치 등이 생길 가능성이 높아지면서 부정확 해질 수도 있다는 것이 AIC의 단점이다. 설명력이 같다면 표본의 수가 클 때만 적합한 모델은 좋은 모델이 아니기 때문에 이를 보완하기 위해 생긴 기준이 BIC다. BIC를 구할 때는 우도와 변수의 개수뿐만 아니라, 샘플의 개수도 포함한다. AIC와 BIC 값은 최소의 값을 갖는 모델을 가장 적합한 모델로 선택한다.