김종엽 지음/사이언스북스 펴냄/2만 2000원
코로나19로 인해 주목받는 분야 중 하나가 통계다.
위드 코로나를 넘어 비욘드 코로나로 가기 위한 인류의 무기로 빅데이터가 떠오르고 있다. 수집된 각종 정보를 이용해 감염병 진단 영역에서 정확성·신속성을 담보하고, 확진자 데이터를 이용한 사망 위험 예측 모델을 통해 제한된 의료 자원을 효율적으로 관리하거나 백신 개발의 과학적 근거로 쓰이는 등 메디컬 빅 데이터의 활용도는 무궁무진하다.
그러나 자료 확보만으로 끝이 아니다. 모아진 자료를 관리하고 분석하는 기술이 필요하다. 바로 통계다. 어떻게 접근해야 할까.
의학뿐만 아니라 모든 영역에서 화두로 떠오른 빅데이터를 현실에 구현하는 지름길을 제시하는 <메디컬 빅 데이터 연구를 위한 R 통계의 정석 >이 발간됐다.
김종엽 건양의대 교수(건양대병원 이비인후과·정보의학교실)가 쓴 이 책은 빅 데이터의 올바른 활용을 위해 전제돼야 하는 프로그래밍 언어 R의 사용법을 촘촘히 소개한다.
R이란 1993년 뉴질랜드 오클랜드 대학교에서 개발된, 통계·그래프 작업을 위한 프로그래밍 언어다. 개인·기관·기업 등에서 모두 무료로 사용 가능한 오픈 소스 프로그램인 R은 통계학자들이 개발한 만큼 데이터 분석에 특화돼 있다. 세계적으로 공유돼 있는 1만 2500여 개의 통계 패키지 설치를 곁들인 기능 확장으로 다양한 통계 기법 적용과 그래프 작성을 손쉽게 할 수 있다.
연구자에겐 자신의 연구 가설을 확인하기 위한 통계 방법을 고르는 일부터가 큰 난관이다.
이 책은 어떤 통계 방법을 골라야 하고, 그 이유는 무엇인지를 최대한 쉽게 설명한다. 통계 분석이 급하게 요구되는 실전 상황에서, 자신의 연구 내용과 맞는 장을 목차에서 찾아 바로 도움을 받을 수도 있다.
저자는 이 책에서 R의 사용법에 대해 자신의 유튜브 채널에서 3년간 강의한 내용과 건양의대 학생들에게 진행한 수업 내용을 갈무리했다.
작업 전 원자료를 정리하고 오류를 줄이는 과정부터 R에 데이터를 불러오는 방법, R을 활용해 그래프를 생성하고 상관 분석, 푸아송 분석, 생존 분석 같은 각종 분석 방법까지 메디컬 빅 데이터 연구에 필요한 모든 과정을 총 17개의 강의에 담았다.
일반적으로 R을 사용하려는 모든 사람이 충분히 활용할 수 있도록 구성됐지만, 주로 의학 분야에서 R을 필요로 하는 상황에 맞춰 데이터를 다루는 기본적인 기능뿐만 아니라 R의 장점인 통계 그래픽을 최대한 활용할 수 있는 실전적 방법들을 알려준다.
<의학논문 작성을 위한 R 통계와 그래프> 저자인 문건웅 가톨릭의대 교수는 "이 책은 R에 입문해 보고 싶은데 문턱이 높아 주저하는 통계 비전공자를 위한 책"이라며 "외과 수술에 있어 봉합과 결찰과 같이 이 책을 보면서 책의 설명대로 따라하다 보면 본격적인 R 사용자로 발전하고 있음을 알게 될 것"이라고 평했다(☎ 02-517-2000).