민감도·특이도 균형 통해 선종·선종 수 발견율 향상…불필요한 용종절제 줄여
서울대병원 강남센터 배정호·정고은 교수연구팀 [npj Digital Medicine] 최근호 게재
컴퓨터 진단 보조(CAD) 인공지능(AI) 대장내시경 검사 시스템에서 위양성(정상적인 대장주름과 점막을 용종으로 잘못 인식) 비율을 낮추면 선종과 선종 수 발견율을 높이고, 불필요한 절제 비율을 줄이는 데 효과적이라는 연구 결과가 나왔다.
서울대학교병원 강남센터 배정호 교수 연구팀(제 1저자 정고은 교수)은 '대장내시경 검사에서 위양성률이 다른 두 개의 컴퓨터 보조 감지 시스템의 전향적 비교'에 관한 연구결과를 [Nature Research] 온라인 의학저널인 [npj Digital Medicine] 최근호에 게재했다.
대장암은 전 세계적으로 세 번째로 흔한 암이며, 암 사망의 두 번째 주요 원인이다. 대장내시경을 통해 선종을 포함한 전암성 용종을 조기에 발견, 절제하는 것이 대장암 위험을 줄일 수 있다. 대장내시경은 시술자의 실력에 따라서 검사의 수행성적이 차이가 있는 것이 한계점으로 지적되고 있다.
이런 한계를 극복하기 위해 컴퓨터 진단 보조 AI 대장내시경 시스템 도입이 확산되고 있다. 무작위 대조 임상시험을 통해 컴퓨터 진단 보조 AI 대장내시경 시스템은 표준 대장내경에 비해 선종 발견율을 24% 높이는 것으로 보고됐다.
하지만 컴퓨터 진단 보조 AI 대장내시경 시스템의 위양성 문제가 해결 과제로 부상했다.
연구팀은 "인공지능 시스템의 불필요한 경보가 과도하면 임상의의 집중도를 떨어뜨려 중요한 병변을 놓칠 가능성이 높아지는 '양치기 소년 효과(Crying Wolf Effect)'가 발생할 수 있다"면서 "적정 수준의 민감도를 유지하면서 동시에 위양성 비율을 효과적으로 관리하는 것이 실질적인 임상 활용도를 높이는 핵심"이라고 강조했다.
연구팀은 AI 대장내시경 시스템의 위양성 문제를 해결하기 위해 2021∼2022년 대장내시경 검사를 받은 총 3047명의 수진자를 대상으로 표준 대장내시경(1591명, 52.2%)과 대장내시경 AI 시스템(아이넥스코퍼레이션)을 비교 분석했다. AI 시스템은 민감도(100%)는 동일하지만 위양성 비율이 3.2%로 높은 A군(763명, 25.0%)과 위양성 비율이 0.6%로 낮은 B군(693명, 22.7%)으로 디자인했다.
분석 결과, 위양성 비율이 낮은 B군이 50.4%의 선종 발견률을 보여 표준 대장내시경(44.3%)과 위양성 비율이 높은 A군(43.4%)에 비해 높았다. 대장내시경 당 선종 수는 표준(0.75), A군(0.83), B군(0.90)으로 AI군이 많았다.
비종양성 용종 절제 비율은 표준(23.8%), A군(29.2%), B군(21.3%) 등으로 조사돼 위양성 비율 관리가 임상 성능과 효율성 향상에 중요하다는 점을 입증했다.
연구팀은 "위양성 비율이 높은 A 시스템은 대장내시경 숙련자들에서 표준 대장내시경에 비해 선종 발견률을 저하시키는 동시에 불필요한 용종 절제를 늘여서 오히려 환자의 안전과 의료의 비용효과성에 나쁜 영향을 줄 수 있다"면서 "인공지능 도입 시 실제 의료환경에서 다양한 의료진과의 상호작용을 철저히 검증해야 한다"고 조언했다.
이번 연구는 인공지능 보조 시스템 개발에서 민감도와 특이도 간 균형이 중요함을 재확인한 것으로 AI 기술 발전과 임상 적용을 앞당길 수 있는 대안을 제시했다는 점에서 주목 받았다.