생성형 의료인공지능 원리, 도전과 기회, 그리고 공존②
의공학교실 김남국 (서울아산병원 융합의학과/영상의학과) 교수
지난호에는 인공지능 역사와 원리에 대한 간략한 설명 및 언어의 표현공간에서 Transformer의 발달까지 알아보았다.
◆생성형 인공지능
여기서부터는 생성형 인공지능을 알아보고자 한다.
그림 1은 리차드 파인만이 말한 것으로, 어떤 것을 이해하는 것은 내가 생성할 수 있는지가 중요하다는 것이다.
이를 반추하면, 인공지능을 더 잘 교육하기 위해서는, 인공지능을 생성형으로 교육할 필요가 있다는 뜻도 된다.
그림 1. 리차드 파인만의 생성에 철학
◆GPT-2란?
GPT-2는 Transformer의 decoder만을 이용하여 Auto-regressive(이하, 자기회귀)하게 자연어의 다음 단어를 예측하게 학습한 것이다. 마치 어린아이가 언어를 배울 때 주변의 말을 듣는 것만으로 스스로 배우는 것과 같다.
GPT-2는 약 40 Gbyte의 자연어를 15억개의 가중치로 학습하였다.
Open AI는 GPT-2에서 Zero-shot과 같은 교육하지 않는 테스크를 하는 창발능력 (emergent ability)이 생기는 것을 확인하고, 2020년에 약 100배 큰 570 GB의 자연언어와 1750억개의 가중치로 학습한 GPT-3를 만들었다.
그림 2. Transformer를 다양하게 쌓아서 자기회귀하게 다음 단어를 예측하는 GPT-2 (2019)
◆GPT-3는?
그림3에서 볼 수 있듯이 GPT-3는 모델이 커질수록 42개의 테스크의 평균 성능이 향상되었다.
그림 3. GPT-3의 42개의 테스크의 성능
예시를 보여주지 않는 Zero-shot보다는 하나의 예시를 보여주는 One-shot, 여러 개의 예시를 보여주는 Few-shot에서 성능이 개선됨을 보였다.
특히, Few-shot에서 성능이 월등이 향상됨을 알수 있다.
GPT-3는 같은 질문에 다양한 답변을 하는 특성이 있었다.
따라서, 사람이 원하는 답변을 하도록, Reinforcement learning with human feedback (RLHF)을 통하여 어떤 답이 가장 사람이 원하는 답인지를 순서를 매기는 방식으로 개선하였다 (그림 4).
아프리카의 영어를 하는 수 많은 사람을 고용해서 수행했다고 한다.
이는 마치 어린아이가 말을 처음 하게 된 다음, 부모에게 하는 다양한 질문을 통해 세상을 이해하는 것과 같은 방식이다.
그림 4. Reinforcement learning with human feedback (RLHF)
◆GPT-3.5
OpenAI는 GPT3.0에 RLHF를 한 모델을 GPT-3.5라고 명명하고 대중에 공개하였다. 이 GPT-3.5는 모델이 특정 크기 이상이 되면 성능이 비선형적으로 향상되고, Zero-shot, Few-shot을 이용하여, 다양한 테스크를 할 수 있었다.
또한, 모델의 가중치를 개선하지 않더라도, 질문 방식 (prompt)을 바꾸거나, 생각의 방식 (Chain of thought)을 교육하면 바로 이를 활용하여 답변을 개선하는 능력을 보여주었다.
따라서, 예전처럼 모델을 업데이트 하지 않고, 프람프트를 잘 주면 (prompt engineering), 내가 원하는 테스크의 성능을 향상 시킬 수 있는 가능성을 보여주었다.
◆스케일링 법칙 발견
그림 5에서 볼 수 있듯이 초거대 언어모델의 성능은 데이터의 크기, 계산량, 모델 크기가 커질수록 증가한다는 스케일링 법칙이 발견되었다.
그림 5. 데이터 크기, 계산량, 모델크기 등이 LLM 성능향상에 스케일링 법칙
특히 큰 모델은 작은 모델에 비해 동일한 성능에 더 적은 데이터로 도달하는 특성이 있다는 것을 알려주어, 인공지능이 학문의 영역에서 경쟁력를 확보할수 있는 상업적인 영역으로 발전하게 되었다.
특히, 상업적인 LLM 회사들은 더 큰 데이터를 이용한 더 큰 모델을 만드는 전략이 기본이 되었다.
◆언어모델 환각 축소 시도
그림 6. 비전-언어 모델
최근에는 언어모델만으로는 환각 (Hallucination)을 쉽게 생성할 수밖에 없기 때문에, 그림-캡션, 의료영상-판독문 같이, 영상자연어 짝 등을 같이 교육해서, 언어모델의 환각을 줄이는 시도가 되고 있다.
이런 언어는 물리법칙을 따르는 다른 modality에 종속되어 있기 때문에, 언어를 마음대로 만들지 못하기 때문에, 언어모델의 환각이 줄어들 수 있다. GPT-4, 4V, 4o나 Gemini 등이 이런 시도이다.
이런 모델은 시각 뿐만 아니라 다양한 모달리티를 같이 교육하는 Large Multimodal Model로 발전하고 있다.
특히 의료에서는 영상, 언어뿐 아니라 유전체 등을 같이 학습하는 Med-Palm M이나 Med-Gemini 등이 구글에 의해서 발표되었다.
◆생성형 인공지능 발달
그림 7에서 볼 수 있듯이 생성형 인공지능은 자신의 분포를 배우려는 Variational Autoencoder (VAE)부터, 적대적학습을 통한 Generative Adversarial Network (GAN), Auto-regressive, Normalizing Flow, Diffusion, Multi-modal Model 등으로 발전하고 있다.
생성 인공지능 초기에는 기존 의료 데이터로부터 새로운 의료 이미지를 생성하거나, 기존 이미지를 개선하는 데 사용했다.
특히, 초기에 GANs과 같은 생성형 모델은 큰 영상을 리얼하게 생성할 수 있는 능력이 있었다.
따라서, 환자의 CT 이미지에서 발생할 수 있는 다양한 질병을 생성하고 질환간에 불균등한 데이터셋에서 부족한 데이터를 생성함으로써 안정적으로 학습할 수 있게 도와주었다.
하지만, 지금은 생성형 인공지능을 통하여 지도학습이 가지지 못하는 뛰어난 수준의 지능을 만드는데 관심이 모여 있다.
최근 나온 기반모델 (Foundation Model)이나 일반인공지능(Artificial General Intelligence, AGI) 등에 대한 관심이 그런 트렌드를 반영하고 있다.
또한 의료같이 높은 정확도를 원하는 테스크 등에 더 적합할 것으로 기대된다.
그림 7. 생성형 인공지능 발달
◆다양한 초거대언어모델 등 계속 공개 중
지금도 다양한 초거대언어모델 등이 계속 공개되고 있다. 그림 8에서 알 수 있듯이 상업용 인공지능과 공개 (open) 인공지능의 성능이 계속 줄어들고 있고, 환자 데이터의 프라이버시 이슈 등을 고려할때, Llama3와 같은 공개 언어모델 등에도 관심을 보여야 한다.
그림8. 상업용 언어모델과 공개소스용 언어모델의 성능차이
소설을 쓰거나, 데이터 처리나, 시각화를 위한 컴퓨터 프로그램을 작성하고, 외국어를 번역하고, 간단한 비서 역할을 할 수 있는 대규모 언어모델의 능력은 인류에게 처음으로 AGI가 가능하다는 생각을 들게 한다.
특히, 이런 대규모언어모델이 인간이 작성한 문장을 고도의 추상적 레벨에서 해석하고, 이를 잠재공간에 매핑할 수 있다는 뜻이 되기 때문에, 이에 따라서 다양한 의료응용이 가능할 것이다.
따라서, 생성형 인공지능을 이용하여 의료 진단, 신약 개발, 질병 예측, 치료 방침 결정 등에서 사용하려는 시도가 있다.
또한, 대규모 언어모델을 이용한 프로그램은 아직은 전문가 수준은 아니지만, 프로그램에 익숙하지 않은 임상 의사나 초급 개발자들에게는 협력 개발자나 좋은 선생이 될 수 있는 수준이다.
이를 잘 활용하면, 도메인 지식을 가장 잘 알고 있는 의사가 의료인공지능 연구 및 개발에 소외되고 단순 레이블러나, 평가자만 되는 상황에서 벗어나서, 의료인공지능 연구 개발의 주체가 될 수 있을 것으로 사료된다.
뿐만 아니라, 임상 진료에서 LMM 등이 활발하게 적용될 것으로 생각된다.
하지만, 대규모 언어모델의 환각이나, 현실과 관계를 맺지 않아서 사실에 대한 개념이 없다는 점, 의학이 발전하기 때문에 이를 맞추어 연속학습 (continual learning)이 필요하다는 점 등 다양한 한계도 가지고 있다.
◆명확한 규제와 지침 필요
앞에서도 언급했지만, 최근에 이런 문제를 해결하기 위해서 시각이나 비디오를 같이 학습하는 LMM이 나오고 있다.
하지만, 지금과 같은 자기회귀 방식으로는 근본적으로 환각을 회피할 수 없을 것이라는 시각이 있다.
지금 대규모 언어모델이 전문가만큼 잘하는 축약 (summarization)이나 검출 (extraction)등과 기존의 전통적인 시스템을 합쳐서, 지능형 에이전트 (agent)를 만들어 활용하려는 (langchain), DSPy 같은 programming language model 등에 대한 다양한 시도도 참고할 만 하다.
의료에서는 데이터 편향은 매우 중요하다. 특히 의료-인공지능 모델이 특정 인구 집단이나 상황에 치우친 결과를 내놓을 수 있게 하며, 이는 정확성을 저하시킬 수 있다.
또한, 의료 데이터의 개인 정보 보호는 큰 윤리적 과제로, 환자의 동의 없이 생성된 이미지나 데이터가 어떻게 활용되는지에 대한 명확한 규제와 지침이 필요하다.
특히 점점더 대량의 인공지능 모델을 학습하기 위하여 대량의 데이터가 필요하다. 이를 위해서 전 세계가 개인정보보호와 의료데이터 활용이라는 상충되지만 필수적으로 만족해야 하는 시스템을 구축하기 위해 노력하고 있다.
이외에도 알고리즘의 투명성과 결과의 해석에 대한 이해도 등도 해결되어야 할 중요한 요소이다.
이런 인공지능 기술은 의료 진단, 신약개발, 치료 계획 및 관리 등 다양한 의료 분야에서 혁신적인 도구로 자리매김하기 위해 다양하게 시도되고 있고, 진단 영역에서는 이미 공존이 필요한 상황이다.
또한, 거대언어모델의 경우도 의료진을 돕는 것 보다는, 의료정보의 비대칭을 해결하기 위해서 환자 설명을 돕거나, 파라매딕그림 의 업무를 돕는 정도는 사용될수 있을것으로 사료된다.
(05505) 서울시 송파구 올림픽로 43길 88 울산대학교 의과대학 02-3010-4207, 4208, 4209
Homepage https://eletter.ulsan.ac.kr/main
홈페이지 문의 : wj0216@ulsan.ac.kr, 동문회 문의 : esmoon@ulsan.ac.kr