최효근 엠디에널리틱스 대표는 서울대학교 의과대학 학사/석사/박사를 졸업하고, 서울대병원에서 이비인후과 전공의, 전임의를 수료한 뒤 한림대학교에서 10년간 빅데이터에 대한 연구를 하여, 총 307편의 SCI 논문을 주저자로 작성을 하였습니다. 엠디에널리틱스는 각종 빅데이터에 대한 자료 분석 및 연구의 통계 방법, 대상자 수 분석, 리뷰어의 통계 질문에 대한 답변 같은 통계 자문 서비스를 제공하고 있습니다. 본 연구자는 이전에 웹진에 4회에 걸쳐 투고하였던 통계 이야기에 대한 후속편 4회를 연재하려고 합니다.
논문 작성 시 가장 흔하게 접하게 되는 분석은 회귀분석이다. 연구의 진행을 완벽히 통제하기 어렵고 이로 인해 발생한 환자군과 대조군, 두 집단의 특성의 차이를 회귀분석으로 보정할 수 있기 때문이다. 예를 들어 기흉 발생에 대한 흡연력의 인과관계를 찾고 싶을 때, 단순하게 흡연력 마다의 기흉 발생 비율의 차이만 보면 안 된다. 기흉이 발생한 환자군과 그렇지 않은 대조군 사이에는 흡연력 뿐만 아니라 나이나 성별 등의 차이를 갖기 때문이다. 그러므로 회귀분석 모형 안에 흡연력, 나이, 성별 등의 변수들을 넣어 보정하면 효과적인 검증을 할 수 있다.
독립변수의 개수에 따라서 단순 회귀분석과 다변수 혹은 다중 회귀분석으로 나뉜다. 대부분의 연구들에서 단순 회귀분석만 제시하지 않고 많은 독립변수들을 모형에 넣어 다변수 혹은 다중 회귀분석 (Multivariable or Multiple Regression Analysis)의 결과를 제시한다.
여러 독립변수들을 선택하여 다중 회귀분석을 시행할 때는 의미 있는 변수만 선별해서 넣는 것이 좋다. 변수 별로 P-value를 확인하여 0.05보다 작은, 유의한 변수만 남겨놓고 나머지 변수들은 제거하는 것이다. 하지만 P-value가 크더라도 연구에 필요하다고 생각되거나 임상적 지식을 활용하여 변수를 추가하거나 제거할 수 있다.
유의한 변수들을 모두 사용하는 것이 아니라 변수들끼리의 연관성도 확인해야 한다. 예를 들어 몸무게, BMI 지수, 음주량으로 수축기 혈압을 예측하려고 할 때, 몸무게와 BMI 지수는 강한 상관관계가 존재한다. 이런 경우 해당 변수들에 더 가중치가 생겨 제대로 된 결과 값이 나오기 힘들다. 이를 다중공선성(Multicollinearity)이라고 하며 변수들의 VIF란 값을 확인하여 10 이상일 경우 조금 더 설명력이 높은 변수를 하나만 선택하여 모형에 넣어야 한다.
(공복 혈당) = 0.457(나이) + 0.789(음주량) – 0.315(운동량)
다중 회귀분석의 식을 예로 들면 위와 같다. 위 식은 나이와 음주량이 한 단위 올라갈수록 공복 혈당을 각각 0.457, 0.789만큼 증가시키고, 운동량이 한 단위 많아질수록 공복 혈당을 0.315만큼 감소시킨다고 해석할 수 있다. 각 변수 앞의 숫자를 정확하게 만들어 오차를 줄이고 공복 혈당을 정확하게 예측하는 것이 목표다.
모형이 완성되면 회귀식의 정확도를 나타내는 결정계수(R²)로 설명력을 알 수 있다. 이 결정계수는 독립변수가 많아지므로 설명력이 증가되므로 위해 표본과 독립변수의 개수로 조정하여 수정된 결정계수(Adjusted R²)를 사용한다. 결정계수는 0에서 1사이의 값으로 1에 가까울수록 설명력이 높다. 만약 값이 0.775인 경우, 회귀모형이 77.5%의 설명력을 가진다고 해석한다.
임상에서 다중(Multiple)과 다변량(Multivariate)을 혼용하여 사용하는 경우가 많다. 하지만 다중 회귀분석은 독립변수가 두 개 이상인 경우를 뜻하고, 다변량 회귀분석은 종속변수가 두 개 이상인 경우를 뜻하기 때문에 구분해서 사용해야 한다. 종속변수의 수만큼 각각의 단일 회귀 모형에 넣어도 되지만 한 사람의 수축기 혈압과 이완기 혈압을 예측하는 경우와 같이 두 종속변수가 상관되어 있을 수 있기 때문에 이를 모형에 포함하기 위해 다변량 회귀분석을 이용한다. 여러 변수들을 하나의 행렬에 넣어 값을 비교할 수 있고, 분산분석에 Pillai-Bartlett trace나 Wilks’ lambda의 통계량을 사용한다. 다변량 회귀분석은 복잡하고 해석이 어려워 쉽게 사용되지 않는다.
구하고자 하는 결과 값이 BMI 지수나 수축기 혈압같은 연속형 자료가 아닌 사망 여부나 고혈압 여부와 같은 범주형(Categorical) 자료인 경우 로지스틱 회귀분석(Logistic Regression Analysis)을 사용한다. 이 모형을 만들 때는 실제 값이 뽑힐 가능성이 가장 높은 모형을 선택한다.
선택된 모형으로 예측 값을 구하는데, 예측 값은 0~1 사이의 값을 가지며 0.5 이상인 경우 고혈압으로, 0.5 미만인 경우 고혈압이 아닌 것으로 예측한다. 예측한 값과 실제 값을 조사하여 분류표를 작성하는데, 이 분류표로 예측 값과 실제 값의 일치도를 구하여 회귀모형의 설명력을 평가할 수 있다. 이 뿐만 아니라 Cox & Snell의 결정계수와 Nagelkerke의 결정계수를 통해서도 설명력을 평가할 수 있다.
네 가지 종류의 암을 예측하는 경우에는 범주가 여러 개 이므로 다항 로지스틱 회귀분석(Multinomial Logistic Regression)을 사용하며, 각 사건이 일어날 확률을 특정 사건과 대비시킨다. 간암, 폐암, 식도암, 대장암의 구분이 필요하다면 대장암을 비교대상인 참조 범주로 지정하여 간암과 대장암, 폐암과 대장암, 식도암과 대장암으로 각각 비교하여 오즈비(Odds ratios)로 표현하는 방식이다. 대장암에 비해 간암에 걸릴 위험, 대장암에 비해 폐암에 걸릴 위험 등 참조 범주에 비교하여 사건이 일어날 확률을 비교하는 것이다.
그렇다면 1기부터 4기까지 암의 병기를 예측하는 분석은 종속변수의 범주가 여러 개이니 다항 로지스틱 회귀분석을 사용할까? 다항 로지스틱 회귀분석을 사용해도 되지만, 순서형 로지스틱 회귀분석을 사용하는 것이 적절하다. 암의 병기는 1기에서 4기까지 단계적으로 진행되고, 건강한 상태에서 암의 초기 단계인 1기로의 진행과 3기에서 4기로의 진행의 심각성이 다르기 때문이다. 즉, 종속변수를 순서대로 정렬할 수 있다는 점과 변수 간의 간격이 동일하지 않다는 점에서 그렇다. 이 모형에서는 각 범주의 누적 확률을 사용하여 각각의 확률을 구하고 이를 사용하여 모델을 생성한다.