인터뷰 - 김화종 연합학습 기반 신약개발 가속화 프로젝트 사업단장
후보물질 임상 성공 여부 미리 가늠…신약개발에 드는 시간·비용 절감
제약사 참여 관건…"실패한 데이터 많을 수록 같은 실수 막을 수 있어"
인공지능(AI)은 모든 영역의 패러다임을 바꾸고 있다. 정부와 민간 협력으로 신약개발에도 대전환이 시작됐다. 각 기관이 보유한 데이터를 한 곳에 모으지 않고 개별 기관에서 인공지능(AI)으로 학습시키는 연합학습 기반 신약 개발이 공식 추진된다. 연합학습에 주목하는 이유는 미완의 후보물질이 임상에서 성공할 수 있을지를 미리 가늠할 수 있기 때문이다. 게다가 정보 유출 위험이 없고, 개인민감정보는 아예 제공되지 않는다.
한국제약바이오협회는 지난달 17일 '연합학습 기반 신약개발 가속화 프로젝트 사업단'(K-MELLODDY 사업단)의 첫 발을 뗐다. 과학기술정보통신부와 보건복지부가 공동으로 추진하는 K-MELLODDY 프로젝트는 올해부터 5년간 348억원을 투입, 연합학습 기반 ADMET 예측 모델인 'FAM'(Federated ADMET Model) 개발을 목표로 한다.
ADMET(Absorption, Distribution, Metabolism, Excretion, Toxicity)은 약물 흡수와 분포, 대사, 배설 및 독성 등 임상시험 성공의 핵심 요소를 이른다. 미국 국립보건원(NIH) 발표에 따르면 ADMET 예측에는 신약개발 R&D 비용의 22% 가량이 든다. 특히 한국은 기술수출 등으로 1상까지 하는 경우가 많아 실제 임상비용의 대부분을 차지한다.
연합학습의 장점은 in-vitro(시험관), in-vivo(비임상), 임상시험 전 과정을 한 번에 살필 수 있다는 데 있다.
김화종 K-MELLODDY 사업단장(한국제약바이오협회 AI신약융합연구원장)은 "이제 게임방식은 바뀌었다"고 말했다.
"외국의 빅파마도 빅테크에 의존하고 있다. 신약 개발 방식이 달라졌다는 것을 방증한다. 우리는 가장 해볼만한 길을 찾는 과정에 들어섰다. 이미 안 할 수 없는 분야다. 발 빠르게 대응하는 게 중요하다. 참여하면 함께 살아남을 수 있지만 외면하면 도태된다."
K-MELLODDY는 제약사, 연구소, 대학, 병원, 공공기관, 벤처가 참여한다.
"유럽의 EU MELLODDY는 대형 제약사간 연합으로 이뤄지지만, K-MELLODDY에는 다른 성격의 여러 기관이 참여해 데이터 및 AI모델의 다양성과 확장성을 확보한다. 사업단을 중심으로 데이터 보유자와 AI모델 개발자가 상호 연계된다. 데이터 소유자는 실험데이터를 생산과 연합학습 참여 및 모델 평가를 수행하고, 최적의 AI모델 선택, ADMET 예측 성능 개선, 신약개발 비용 절감 등의 혜택을 얻게 된다. AI모델 공급자는 AI모델 개발과 고도화를 수행하고, 다양한 데이터를 통한 모델 검증, AI모델의 빠른 배포, AI모델 개발 수익창출 등을 도모할 수 있다. K-MELLODDY는 다수의 기업, 기관이 보유한 실험데이터를 안전하게 공유·활용하는 플랫폼을 통해 ADMET 예측, AI 신약개발에 공급자, 수요자가 서로 협력하며 경쟁하는 생태계를 조성한다."
K-MELLODDY 프로젝트 성공의 관건은 무엇일까.
"제약사의 참여다. 지금까지 실패한 임상 데이터를 머신러닝에 사용한 적이 없다. 인공지능 연합학습은 실패한 데이터가 많아야 한다. 후보물질의 임상 성공 여부를 판단해 가능성이 크지 않으면 빠르게 종식할 수 있다. 실패한 데이터 많으면 같은 실수를 반복하지 않는다. 제약사 입장에서는 어차피 갖고 있는 데이터다. 그걸 꺼내 참여토록 하는 게 관건이다."
다른 참여기관들은 어떤 동기유인이 있을까.
"제약사는 신약개발이라는 직접적인 이유가 있다. 병원에서는 보통 연구 중인 임상만 수행하지만 많은 정보에 접할 수 있다. 실제로 임상시험이 아니더라도 허가받은 약을 처방하고 있기 때문에 많은 정보를 갖고 있다. 그러나 이 정보들을 신약개발에 이용할 수 있는 창구는 없다. 당장 수익이 나지 않더라도 임상 치료를 위해 정보를 갖고 싶어한다. 과거와 현재를 연결하고 이해도를 높이고 협력체계를 구축하는 단초가 된다. 또 임상약리학은 기초연구분야로 병원헤서도 관심을 가질 수밖에 없다. 병원 참여는 걱정하지 않는다. 연구소도 같은 맥락이다. 신약개발 목표에 함께 하는 것만으로도 가치있다."
데이터 보안에 대한 우려가 높다.
"보안문제는 걱정하지 않아도 된다. 데이터를 제공하는 개념이 아니다. 각 기관의 데이터가 독립된 컨테이너에 모이는 구조가 아니라, 각자의 정보를 담은 AI 모델이 컨테이너를 왔다갔다 하는 형식으로 이해하면 된다. 통계적 이질성도 해결할 수 있다. 또 검증된 기관만 들어올 수 있고, 연합학습 과정 속에서도 지속적으로 암호화한다."
데이터 자체의 신뢰성 문제나 오염된 데이터에 대한 검증은 어떻게 이뤄질까.
"데이터 오류 문제는 어차피 발생한다. 그러나 데이터가 쌓이다보면 오류는 자연스레 잡힌다. 연합학습 과정에 데이터가 들어갔다 오면 데이터 역량이 높아진다. 글로벌 모델을 연합학습하면 어떤 기관의 데이터는 기본기를 갖추고 새로운 영역에서 재학습하는 효과를 거둘 수 있다. 만일 어떤 기관이 악의적 데이터를 반복해서 보내면, 그 데이터는 스스로 성능이 나쁜 데이터를 갖게 된다. 참여기관이 많으면 데이터 오류는 없앨 수 있다. 특정 데이터로 특정 모델 하나만 쓰면 최적화 효과를 거둘 수 있겠지만 제한적이다. 처음부터 다양한 데이터로 학습한 모델이 지속가능성이 있다."
이제 인공지능 연합학습을 이용한 신약개발은 거스를 수 없다.
"K-MELLODDY 프로젝트에 참여하는 제약기업에는 기업단 8∼9억원 정도가 지원된다. 앞으로 AI 를 이용하지 않고는 신약개발을 할 수 없다. 연합학습의 필요성은 여러 측면에서 인정받고 있다. 참여하면 신약개발 과정에 함께 올라타게 되지만 빠지면 기회에서 도태될 수 있다."
국내 제약사·의료기관 등이 갖고 있는 데이터의 표준화는 가능할까. 각 기관은 데이터 제공 후 어떤 수준의 정보를 얻게 될까.
"데이터를 완벽하게 표준화하는 것은 어렵다. 인공지능 모델에 영향을 주지 않는 범위에서 버리기도 하고, 바꾸기도 한다. 표준화보다는 전처리 과정이 중요하다. 하나의 인공지능 모델은 정형화된 답을 내는 게 아니라 다양한 의미를 품은 정보를 생성한다. 최소한의 목표치를 설정하고 사업단을 운영하고 있지만 AI는 지금도 발전하고 있다. AI 발전 양상에 따라 목표를 수정해야 하는 상황이 올 수도 있다. 더 우수하고 쓸모있는 모델이 나올 수 있다."
국내 신약개발 현실을 감안하면 데이터 빈곤의 문제는 없을까.
"신약을 만드는 방법이 달라졌다는 인식을 갖는 게 중요하다. 물론 데이터가 많아야 한다는 전제는 있다. 그러나 게임의 방식이 바뀌었으니 해볼만하다. 외국의 빅파마도 빅테크에 의존하고 있다. 신약개발 방식이 달라졌다는 것을 방증한다. 우리 사업단은 가장 해볼만한 길을 찾는 과정이다. 신약개발 과정에서 임상1상까지 드는 시간과 비용을 감안하면 분명히 비용을 줄이고 시간을 앞당길 수 있다."
K-MELLODDY 프로젝트는 R&D 시범사업 성격이 짙다. 향후 로드맵은 어떻게 진행될까.
"제약기업 20개 정도를 선정할 계획이다. 설문조사를 해보면 업계에서는 굳이 빠질 이유가 없다는 의견이 대세다. 지속적으로 참여를 독려해 나가겠다. 4월까지 세부사업별 RFP(제안요청)를 작성하고, 5월 중 세부사업 공고가 예정돼 있다. 사업자 공고가 나가면 참여기관 윤곽이 들어날 것이다. 이후 사업단 홈페이지 구축, 설명회 개최, 사업설명 및 플랫폼, 데이터, AI분야 의견수렴회의(5월) 등을 거쳐 6월에 세부 사업자를 선정한다. 1차년도 과제는 7월부터 시작한다."