의사 수준의 의료 질문 답변을 위한 대규모 언어 모델

Toward expert-level medical question answering with large language models

Karan Singhal, Tao Tu, Juraj Gottweis, R. Sayres, Ellery Wulczyn, Mohamed Amin, Le Hou, Kevin Clark 외

인용 920인기 27.3

원문 보기 ↗

AI 분석

한줄 요약

Med-PaLM 2는 LLM 개선, 의료 도메인 미세 조정, 앙상블 정제 및 검색 체인을 통한 추론 및 근거 강화로 의사 수준의 의료 질문 답변을 달성한 모델이다.

풀어야 하는 문제

기존 LLM은 의료 질문 답변에서 장문 응답과 실제 임상 워크플로우 처리에 한계가 있었다. Med-PaLM은 USMLE 스타일 문제에서 합격점을 넘겼지만, 실제 의료 환경에서의 신뢰성과 안전성은 여전히 부족했다.

접근 방법

Med-PaLM 2는 PaLM 2 기반으로 의료 도메인 데이터로 미세 조정하고, 앙상블 정제(ensemble refinement)와 검색 체인(chain of retrieval)을 도입해 추론 능력과 근거 제시 능력을 향상시켰다. 또한, 인간 평가 프레임워크를 구축해 의사 선호도와 안전성을 체계적으로 평가했다.

결과·기여

MedQA에서 86.5% 달성(Med-PaLM 대비 19%p 향상), MedMCQA, PubMedQA, MMLU 임상 주제에서도 큰 성능 향상을 보였다. 인간 평가에서 9개 임상 축 중 8개에서 의사들이 Med-PaLM 2의 답변을 다른 의사의 답변보다 선호했다. 실제 의료 질문 파일럿 연구에서 전문의는 Med-PaLM 2를 일반의 답변보다 65% 선호했으며, 안전성 평가에서도 의사 수준으로 평가되었다.