谷歌开源医疗AI新星 MedGemma 1.5:从看平面图到读懂3D影像

谷歌在医疗AI领域投下一枚重磅炸弹——MedGemma 1.5 正式开源。这不是一次简单的版本迭代,而是一次从"看平面图"到"读懂3D影像"的质变飞跃。40亿参数量下,3D MRI病情分类准确率提升11%,病理F1提升47%,X光解剖定位IoU提升35%——这些数字背后,是医疗AI正在从辅助工具走向真正意义上的"AI医生助手"。

谷歌开源医疗AI新星MedGemma 1.5

从2D到3D:医疗AI的维度跃迁

此前的医学AI模型大多只能处理二维图像——一张X光片、一张CT切片、一张病理照片。但真实的医疗诊断远比"看图说话"复杂。一个CT检查包含数百个切片,一个MRI扫描是完整的3D体积数据,一张病理切片更是动辄数十亿像素的"像素怪兽"。

MedGemma 1.5 由Google Research和Google DeepMind联合研发,核心突破就在于原生支持三维医学影像。处理3D CT时,系统将立体图像切片为最多85个代表性层面,每层896×896像素,相当于2万多个细节图像点——既看全貌,又不遗漏。处理病理全切片时,智能提取126个代表性patch,从数十亿像素中精准定位最有诊断价值的区域,就像一位经验丰富的病理医生知道在哪里寻找关键线索。

训练数据同样惊人:60万张胸部X光影像、28万个CT扫描体积、16万个MRI扫描数据、33万张病理切片图像,数据来自印度大型医院系统、美国影像诊断中心网络和日本医院皮肤科。论文编号arXiv:2604.05081v1,有兴趣的读者可查阅完整技术报告。

渐进式学习:从医学生到全科医生

MedGemma 1.5的训练策略模拟了真实医生的成长路径——渐进式学习(Progressive Learning)。

第一阶段是"基础医学教育":预训练阶段学习大量医学文献和图像配对数据,掌握基本医学概念。第二阶段是"专科轮转":通过蒸馏学习(Distillation Learning),向256个不同领域的"专科老师"学习——专门看CT的AI、专门看MRI的AI、专门看病理的AI,融合各家之长。第三阶段是"临床实习":通过强化学习(RLHF),在实际诊断反馈中不断优化判断标准。

这种"三位一体"的训练方式让MedGemma 1.5在多个维度实现了突破。MedQA医学考试准确率从64.4%提升到69.1%,电子病历问答准确率更是从67.6%跃升至89.6%——22个百分点的提升,相当于从及格线直接跳到了优秀。

更值得关注的是其解剖结构定位能力。在胸部X光图像的解剖定位任务中,IoU从3.1%飙升至38.0%,提升35个百分点。这意味着AI不再只是说"可能有病",而是能精确标出病变的具体位置、大小和形状——就像给医生配了一个智能GPS。

开源40亿参数:小模型的大野心

MedGemma 1.5最令人惊讶的地方在于——它只有40亿参数

在与同等规模的Qwen3 VL 4B对比中,MedGemma 1.5在所有医学影像分类任务上都占据优势:皮肤病诊断准确率73.5% vs 68.0%,眼底疾病诊断76.8% vs 41.9%。与自家Gemini 3.0 Flash相比,3D CT诊断准确率61.1%仅比Gemini 3.0 Flash的62.9%低不到2个百分点,解剖定位IoU更是几乎持平(38.0% vs 38.5%)。

这证明了一个重要趋势:在垂直领域,经过专业训练的小模型完全可以达到通用大模型的专业水准。对于医疗这种对隐私、延迟和部署成本都有严苛要求的场景,40亿参数的开源模型意味着可以在本地部署,在保护患者数据的同时提供专业级诊断支持。

MedGemma 1.5已通过Hugging Face和Google Cloud Vertex AI平台开源开放。对于基层医院而言,这意味着无需昂贵的云端调用,本地即可运行专业级AI诊断助手;对于医学研究者而言,开源模型提供了定制化优化和二次开发的可能性。谷歌选择开源,不仅是一种技术策略,更是在推动全球医疗AI生态的普惠化发展。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手