허선 한림의대 교수, 'JKMA'에 '인공지능 챗봇 신뢰도' 관련 기고
비전문가의 전문 영역 챗GPT 활용 위험…정확도 감별 수준 갖춰야
GPT-4.0 매개변수 100조개로 확대 될듯…"빠른 답변·정확도 제고"
대형언어모형 인공지능 플랫폼 '챗GPT'는 의료 영역에서 어디까지 활용할 수 있을까. 질병 진단 및 환자 치료에 대한 결과물은 얼마나 신뢰할 수 있을까.
허선 하림의대 교수는 대한의사협회지 <JKMA> 최근호에 '인공지능 챗봇의 질병 진단 및 환자 치료에 대한 답변은 신뢰할 수 있는가?' 기고문을 통해 챗GPT가 일반적인 지식을 제공하고 질문의 맥락에 맞춰 답을 하지만, 그 답이 얼마나 신뢰할 수 있느냐는 오로지 전문가의 판단에 달려있다고 단언했다.
의료현장에서 전문가인 의사는 해당 답변이 어느 정도 수준으로 정확한지 감별할 수 있으나, 비전문가인 경우 이 답을 그대로 받아들이면 매우 위험할 수 있다는 지적이다.
챗GPT에 '환자 치료'에 대해 물었다. 답변은 원론적이다.
"인공지능 챗봇은 도움이 되는 정보와 통찰력을 제공할 수 있지만 전문적인 의학적 조언이나 진단을 대체할 수 없다. 전문가를 대체하는 것이 아닌 전문가 의료 자문과 함께 사용하는 게 중요하다."
그렇다면 챗GPT의 의학지식은 어느 정도 수준일까.
의대생이 치른 기생충학 시험문제를 챗GPT에게 물었다. 79문항 중 48문항(60.8%)에서 적절한 답을 했다. 의대생의 경우 77명 평균 71.8문항(90.8%)에서 적절한 답을 했다.
USMLE 300문항을 챗GPT가 시험을 치르도록 했을 때 합격선 60%에 다다랐으며, 정확도는 1∼6점 척도 기준 4.8, 완결성은 1∼3척도 기준 2.5였다.
미국 내과 전문의가 만든 흔한 증상 10개 증례보고에서 챗GPT가 제시한 감별진단명 목록 정확도를 점검한 결과, 두 명의 의사가 제안한 감별진단 목록 정확도는 98.3%, 챗GPT는 83.3%였다.
실제 임상현장에서 증례에 대한 챗GPT의 진단 정확도는 어떨까.
PubMed에 게재된 논문 10편을 무작위로 선정해 먼저 증상과 임상소견만으로 감별진단명을 나열토록 하고, 이후 진단검사 결과를 추가해 감별진단을 내리도록 했다. 이어 증례보고에 나와 있는 진단명에 따른 치료방법을 나열토록 하고 증례보고 내용과 일치도를 파악했다.
우선 환자의 증상, 소견, 과거력만으로는 10례 중 3례에서만 감별진단이 제시한 진단명을 포함했지만, 진단검사 결과를 추가한 후에는 7례에서 진단명을 제시했다.
논문에 치료방법을 기술한 9례 가운데 1례는 제대로 알려주지 못했고, 4례는 적절치 못한 내용이 포함됐으며, 4례에서만 적절한 방안을 내놓았다.
임상현장에서 증례에 대한 챗GPT의 정확도는 앞서 언급한 의학지식 수준에 비해 많이 떨어진다.
허선 교수는 "10개 증례가 흔히 볼 수 있는 사례가 아니고, 현재 챗GPT 3.5 버전은 2021년까지의 자료로 훈련시킨 것이어서 최신 정보에 대한 훈련이 부족한 것으로 추정된다"고 분석했다.
한글과 영문 문서의 정확도 차이도 짚었다.
의학 영역에서 한글로 질의응답을 진행할 경우 정확도가 더 떨어질 수 있다. 챗GPT의 한글 문서 훈련량은 영문 문서보다 훨씬 적기 때문이다.
의사들은 어떨 때 챗GPT의 도움을 받을 수 있을까.
비록 특수한 분야 증례에 대한 답은 만족스럽지 못하지만 일반적인 흔한 증상에 대한 답은 상당히 높은 수준이라는 판단이다. 대면진료 현장에서는 어렵지만 비대면 진료에서는 충분히 활용할 수 있고, 진료 이후 환자의 추적진료에도 유용하다.
연구와 교육현장에서는 시간을 아낄 수 있다.
발표원고 작성, 교재 제작, 논문 작성, 번역, 영문 교육, 말 바꿔쓰기, 요약 등에 도움받을 수 있다. 챗GPT는 용어를 정의내리고 과거 지식을 요약해 제공하는 작업은 탁월하다.
논문작성에서 유의할 점은 정보 원천(source)을 밝히지 않기 때문에 표절 시비에 휘말릴 수 있다. 그러나 놀랍게도 Similarity·Turnitin 등 표절점검 프로그램에서는 중복으로 나오지 않는다.
인공지능 챗봇 가운데 Elicit(https:elicit/org/)는 정보 원천을 제공하지만, 가장 많이 인용된 논문·자료를 바탕으로 답을 내놓기 때문에 최신 정보가 포함되지 않을 가능성이 높다.
'환각현상'도 주의해야 한다.
챗GPT는 다음 단어를 적절히 예측하도록 훈련된 응답시스템으로 단어를 배열하는 능력이 뛰어나지만, 훈련된 자료가 잘못된 내용일 경우 적절한 응답이 아니더라도 그럴듯하게 문맥에 맞춰 응답하는 '환각현상'이 나타난다.
인터넷 상 접근 가능한 모든 자료가 올바른 것일 수 없기 때문에 어떤 자료를 선별해 챗봇을 훈련시킬지가 플랫폼 개발에서 핵심 과제다.
챗GPT는 어디까지 발전할 수 있을까.
챗GPT의 기반이 된 GPT-3.5(2022년 11월 30일 발표)는 매개변수가 1750억개였지만, GPT-4.0에세는 100조개까지 확장될 것으로 전망되고 있다. 매개변수가 늘어나면 응답속도가 빨라지고 더 정밀한 응답이 가능해진다. 향후 최신자료 훈련과 더 정확한 응답이 가능해진다면 의료 등 전문분야에서도 활용 폭이 확대될 수 있다는 진단이다.
허선 교수는 "챗GPT는 매우 일반적인 지식을 제공하고, 질문의 맥락에 맞춰 답을 하지만, 그 답이 얼마나 신뢰할 수 있느냐에 대한 판단은 오로지 전문가 몫이며, 인공지능 챗봇을 사용할 때 핵심은 사용자의 전문적인 지식"이라며 "챗GPT은 진단보다는 치료 방법에 대해 조금 더 나은 수준을 제공한다. 치료방법은 대개 안전성이 확인된 후 임상현장에서 시행하기 때문에 진단과는 다른 차원"이라고 지적했다.
비전문가의 전문 영역에 대한 인공지능 챗봇 활용을 권장할 수 없다는 판단이다.
허선 교수는 "전문 분야에 대해 일부 제대로 답하는 경우가 있더라도 비전문가의 인공지능 챗볼 활용을 권장할 수 없다"면서 "앞으로 더 많은 훈련과정을 통해 수준이 올라갈 수 있겠지만, 이런 도구를 효율적으로 적절하게 사용하기 위해서는 전문가로서 충분한 지식과 술기를 갖춰야 한다"고 강조했다.