上海软件中心参与首届长三角人工智能与医疗大健康创新应用大会并获“长三角智慧医疗健康产业优秀案例”

2025年5月27日,由闵行区颛桥镇人民政府,上海现代服务业联合会大健康服务专委会、医疗服务专委会、养老服务专委会,上海市人工智能技术协会联合主办的"AI赋能医疗,拓界健康生态"首届长三角人工智能与医疗大健康创新应用大会在闵行区大零号湾国际会议中心隆重举行。本次大会汇聚了来自政府、产业、学术、医疗等领域的500余位代表,共同探讨人工智能与医疗大健康产业的深度融合与创新发展。

上海计算机软件技术开发中心的“医学多模态大模型系统测评解决方案”在大会上荣获“长三角智慧医疗健康产业优秀案例”。

案例介绍

该案例中,上海计算机软件技术开发中心为检测某市三甲医院研发的医学多模态大模型系统功能完备、性能稳定、安全可靠,对系统进行了全方位测试与验证,分析系统的每个功能模块,设计覆盖多场景、多任务、多维度的医疗大模型测试用例,有效识别潜在缺陷并推动关键功能模块的优化,为其后续的临床部署和上线运行提供了客观、权威的质量依据。


测评工作重点

被测系统为多模态大模型,不适宜用传统软件测试方法对其进行测评,除了验证系统性能效率、可靠性和维护性等传统指标,测评重点需关注多模态数据处理准确性、复杂场景对话流畅性、一致性、安全合规性等核心指标。

测评方案概述


测评难点

被测系统主要处理医学领域多模态数据,此类数据往往涉及患者隐私,获取难度较高;医院不同科室文档、检验报告格式存在一定差异,测评数据需覆盖不同科室文档格式及异常情况;另外需确保系统输出符合伦理道德、法律法规,不会产生幻觉。综上所述,该系统测评难点主要为领域多模态测试数据复杂度高且获取难度场景适配复杂以及安全与合规要求


测评难点与方法

测评案例创新点

1.全场景、多模态测评

测评团队GMAI-MMBench医疗多模态大模型测评基准中获取数据,使用自研大模型测评工具箱进行数据增广,针对多模态医学文档智能识别字段结构化抽取多模态医学数据分析及交互异常检测及健康建议生成等功能设计差异化测试场景采用准确率、召回率、F1值、工具箱自动测评人机协同打分等指标和方法进行全场景、多模态的测评。

2.多智能体协作的幻觉挖掘测评

测评团队采用多智能体协作的幻觉挖掘测评方法,由自然语言处理专家认知科学和心理学专家统计和信息科学专家智能体从不同维度对幻觉问题和被测系统回答进行评估,实现自动化幻觉测评并生成报告,确保系统安全合规。

多智能体协作的幻觉挖掘测评

测评案例贡献

该方案测评工作遵循了上海计算机软件技术开发中心参与制定的国家标准GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》,推动大模型测评标准应用落地,并将其在医疗领域进一步推广;测评体系及标准化方案可应用至其他医疗细分领域,为全国医疗AI规范化的测评提供技术范本。

该方案建立了医疗领域多模态测试数据体系,实现了全场景、多模态的测评,验证了智能体协作测评的可靠性,可保证所验证通过的医疗大模型系统诊疗准确性、安全合规性,赋能基层医院精准诊疗,提升用户信任度。


后续,上海计算机软件技术开发中心也将继续深化大模型测评的研究与应用,推动垂直领域测试数据体系构建、智能化测评工具链研发及智能体测试方法论创新,助力产业高质量发展。

版权所有 ©2021. 上海计算机软件技术开发中心 All Rights Reserved 沪公网安备 31011202012393号,沪ICP备14033306号-25