의료통계, 인공지능, 빅데이터 같은 정보의학 분야는 저희 임상의에게 아직 생소한 면도 있지만 많은 연구들이 진행되고 있어 지속적으로 관심을 가져야 하는 분야인 것 같습니다. 데이터 사이언스 및 정보의학 분야의 3회 연제 중 두번째로 건양대학교 정보의학교실에서 조교수로 재직중이고 통계학 박사이신 신지은 교수님을 모셨습니다. 저희 이비인후과 연구에 실제적인 도움말씀 주실 것으로 기대합니다.
필자는 통계학 전공자이다. 통계학 전공자가 아닌 다수의 분들이 그 어려운 것을 어떻게 하게 되었냐고 질문한다. 필자도 역시 여전히 어렵고, 아직도 계속해서 공부해야 한다고 생각한다. “통계학”하면 떠오를 수 있는 p-value, 복잡한 계산과 모델링, 통계학적으로 유의함과 같은 것에 대한 논의보다 통계를 다양하게 적용하기 위해 중요한 것에 대해 이야기 해보고자 한다.
<너랑 나랑 달라?>
지금도 종종 등장하지만, 10년 전쯤 각종 미디어나 포털에서 『엄친아』, 『엄친딸』이라는 단어가 자주 등장했었다.
대중문화 사전에는 『엄친아』란 “엄마 친구 아들’을 줄인 말로, 집안 좋고 성격이 밝은데다 공부도 잘하고 인물도 훤한 모든 면에서 뛰어난 젊은이를 의미한다. 이 말은 〈골방환상곡〉이라는 제목으로 포털 사이트 네이버에 연재된 웹툰에서 시작되었다 한다. 만화 속 엄마의 잔소리에 빠지지 않고 등장하는 단골 레퍼토리인 “엄마 친구 아들은 공부 열심히 해서 서울대 들어갔다는데, 넌 뭐냐!”라는 대사에서 비롯되었는데 동일한 의미의 여성을 가리키는 말로는 ‘엄친딸’이 있다.”라고 기록되어 있다.
필자는 초등학생부터 일반 성인까지 다양한 연령층에게 각자 생각하는 『엄친아』, 『엄친딸』을 적어보도록 한 적이 있다. 반응은 대부분 앞서 기록된 대중문화 사전의 내용을 담고 있었지만, “특정 유명 연예인 만큼 잘 생기거나 예뻐야 한다”거나, “전교에서 몇 등 이내이어야 한다.”, “축구(농구, 야구, 수영)등을 어느정도 해야 한다”는 등 매우 구체적으로 작성되었다.
『엄친아』, 『엄친딸』의 생각을 적는데 참여한 분들은 서로가 작성한 내용을 공개하면서 동일한 단어를 보면서도 서로 다른 생각을 가질 수 있음을 발견하였다. 그리고 논쟁보다는 서로의 다름을 인정하며 즐거워 했다. 그리고 참여자들은 우리가 매우 잘 알고 있다고 여겨지는 단어 조차도 그 단어에 대한 사람들의 생각이 다를 수 있다는 것을 깨닫았다. 즉 우리가 어떤 문제에 직면했을 때, 해당하는 문제에 대해 동일하게 인식했느냐를 파악하는 것은 일을 진행해 나가는데 매우 중요할 것이다.
<우리 같은 말 하고 있니?>
어느 날 줄넘기를 열심히 연습하던 딸아이가 반에서 줄넘기를 제일 잘하는 친구가 누구인지를 놓고 작은 다툼이 일어난 이야기를 해주었다. 딸아이는 태권도장을 다니며 사범님의 2단, 3단 줄넘기를 하는 모습을 본 터라 복잡하고 어려운 줄넘기를 할 수 있어야 줄넘기를 잘한다고 생각하고 있었다. 하지만 친구들의 생각은 달랐다. 1단 줄넘기를 한번도 걸리지 않고, 100개 이상 하면 줄넘기를 잘한다고 말하는 친구, 줄넘기를 해서 한번 걸릴 때 까지 개수가 많은 친구가 줄넘기를 잘한다고 말하는 친구, 뒤로 넘기를 많이 하는 친구가 줄넘기를 잘한다고 말하는 친구 등 다양한 의견이 제시되었다고 한다. 그리고 서로 의견을 좁히지 못한 채로 집으로 돌아왔다.
필자는 딸아이에게 “달리기에도 오랫동안 달리는 마라톤이 있고 짧은 시간 동안에 이루어지는 100미터 달리기 같은 게 있는데 오랫동안 달리는 마라톤 선수하고 100미터 달리기 선수하고 비교할 수 있을까?” 하고 되물었다. 줄넘기를 잘한다는 것이나 달리기를 잘한다는 것은 우리가 다 알고 있는 것 같지만 동일한 의미를 갖고 대화하고 있었는지는 모를 일이다.
따라서 우리는 일상생활에서 부모님, 자녀, 친구, 동료 등 주변 사람들과 대화를 할 때 같은 동일한 의미로 같은 단어를 사용하고 있는지 생각해 볼 필요가 있다. 이런 것을 연구영역에서 생각해보면 우리가 연구를 위해 조사 혹은 측정하려는 대상이나 내용(단어)에 대한 정의 및 연구의 목적을 분명히 하고 시작하지 않는다면 예상치 못한 낯선 결과물을 마주할 수 있을 것이다.
<첫 단추를 잘 끼워야지: 인공지능에서도 정의가 필요해?>
4차 산업혁명 시대가 도래하면서 세상이 빠른 속도로 변하고 있다. 그 중 하나인 인공지능(AI, Artificial Intelligence)의 활용이 적극적으로 다양한 비즈니스 분야에서 적용되기 시작하고 있다.
인공지능개발은 크게 데이터 구축, 모델 개발 및 훈련, 모델 배포의 3단계로 구성되며 데이터를 수집, 가공, 검수하는 라벨링 작업에 매우 많은 리소스가 필요하다. 그래서 데이터 댐과 같이 공공의 목적으로 활용할 수 있도록 디지털 뉴딜의 핵심정책으로 인공지능 학습용 데이터 구축 개방하고 있다. 그러나 데이터의 절대적인 양을 늘리는 데 집중하다 보니 실제 활용하기 어려운 저품질 데이터도 많이 쌓이게 되었다. 저품질의 데이터로 학습된 인공지능은 성능을 담보할 수 없으며, 인공지능 산업의 경쟁력 저하로 이어질 수 있다. 따라서 최근 인공지능 학습용 데이터에 대한 품질관리의 중요성이 부각되고 있다.
‘인공지능 학습용 데이터 품질관리’란, “인공지능 학습용 데이터 품질을 확보하는 데 필요한 조직, 절차, 품질기준, 품질관리 방법이나 활동 등을 정의하여 점검하고 조치하는 일련의 활동”이라고 하고 있다.
첫 단추를 잘못 채우면, 채운 단추를 다 풀고 처음부터 다시 돌아 가야하고 단추를 채우는데 시간을 재투자 해야한다.
<첫번째 단추를 채우는 일은 매우 중요하다.>
고품질의 데이터를 확보하기 위해서는 데이터를 구축하는 모든 단계가 중요한데, 그 중에서도 필자가 주목하고 싶은 부분은 바로 인공지능 학습용 데이터를 구축하기 위한 첫 단계인 바로 “임무정의”이다.
<출처 : 인공지능학습용 데이터 품질관리 가이드라인 V1.0 (2021.2, 한국지능정보사회진흥원)>
‘임무정의’단계에서 인공지능을 통해 해결하려는 문제가 무엇인지를 명확하게 정의해야 한다. 이부분은 인공지능이 아니더라도 연구를 시작할 때 반드시 확실하게 짚고 넘어가야 하는 부분이다. 연구에 참여한 연구진이 모두 일치하는 정의를 가지고 있을 때 고품질의 완성도 높은 데이터를 구축해 나갈 수 있을 것이다.
우리의 일상에서부터 인공지능에 이르기까지 우리가 측정하려는 대상이나 내용(단어), 해결해야하는 문제에 대한 정의를 명확하게 할 때 비로소 목적한(일상에서는 소통과 관련된 부분일 것이며, 연구에서는 목표하는 연구결과일 것이다) 것을 마주하게 될 것이다.