PG(平台电子)中国-官方网站

北京大学第一医院健康医疗大数据平台的建设实践与思考-PG电子集团

北京大学第一医院健康医疗大数据平台的建设实践与思考

  中华医学科研管理杂志2024年·37卷·06期杨照周煦然樊笑晗李贞冯孟贤刘久秀郑茜子杨超向宇

  目的在分析和总结北京大学第一医院科研数据平台建设相关经验的基础上,提出医疗机构健康医疗大数据平台建设的有效路径,为进一步拓展健康医疗大数据平台应用,推动智慧医疗建设提供借鉴。

  方法通过系统化流程收集医院多域数据,分类处理并清洗后,采用国际医学标准与NLP技术实现数据标准化与结构化。同时,优化eCRF表单、数据源判断及数学计算,确保科研数据平台的数据质量与应用价值。

  结果北京大学第一医院通过开展科研数据平台建设,初步实现了从临床数据向科研数据的有效转化,实现了数据的有效采集、系统推送与整合、数据清洗与治理,并开展了健康医疗大数据研究。

  讨论后续应持续扩大数据范围,推动将临床数据转变为科研数据;提升临床专家参与度,进行项目的前瞻性设计和数据的前瞻性采集;以集成平台为基础,进行数据的自动推送与调用;以大语言模型的应用为方向,开展技术探索与储备。

  我国的医疗信息化发展历经二十余年,期间积累了海量健康医疗数据。临床诊疗数据分散在医院各系统(HIS、LlS和PACS)中,各系统的数据结构、标准不一,数据非结构化、非标准化、难以形成科研所需的研究变量

  。大数据在科研管理中有重要的应用价值,在开展临床研究、指导科学选题、丰富临床试验研究方法、促进成果转化及优化科研资源配置等方面有着明确的意义

  。如何高效利用临床数据、挖掘出临床数据的科研价值是有实践意义的重要科学命题。

  国外已较早开始了健康医疗大数据研究,并着手了大型专病库建设,其特点是收录病种多、收录患者多、参与单位多和涉及临床试验多。例如,美国心脏病学学会

  注册研究(ACC-NCDR)自1997年发起,通过采集病种门诊住院数据,为临床实践、医疗支付和政府决策提供依据,到目前形成多个专病注册库,包括急性冠状动脉综合征、颈动脉血管重建术及内膜切除术等7种疾病,研究结果用于全国疾病临床指南优化、医疗保险制度设计等

  。随着云计算、大数据和人工智能等技术的发展,我国智慧医疗建设不断加速,近年来国内对健康大数据的研究以及应用有了长足的发展

  。通过医院科研大数据平台对数据进行高效的采集与清洗、治理与标准化,提升数据搜索和科研统计分析能力,有效加快了科研进程、推动了科研成果产出

  北京大学第一医院于2020年起着力开展科研数据平台建设,推动临床数据向科研数据的有效转化,为依托于临床数据的新型临床科研应用开展打下坚实基础,也为进一步拓展健康医疗大数据平台应用,推动智慧医疗建设开展积累了经验。本研究系统总结了北京大学第一医院健康医疗大数据平台的建设实践,针对我国医疗信息化数据分散、非标准化的现状,提出了创新的解决方案,通过构建一体化的科研数据平台,实现了多源异构临床数据的有效整合与标准化处理。这一举措在国内同类研究中处于领先地位,显著提升了大数据在科研选题、临床试验、成果转化及科研资源配置等方面的应用价值,为医疗机构健康大数据平台的建设提供了可借鉴的经验。

  1.科研数据收集与治理1.1数据的来源与遴选医院根据临床与科研具体需求,决定数据抽取顺序和抽取范围,抽取数据域应包括患者出入转域、医嘱域、结算费用域、检查结果域、医嘱发药域、护理体征域、病案域、电子病历域、医学影像域、手术麻醉域及体检域等。

  据字段按照来源和复杂程度,分为Level 1、Level 2和Level 3三类[6]。L1是无须进行额外的加工处理可直接映射呈现在专病库的数据,如记录时间、记录医生等;L2是通过大段文本中提取关键信息并进行结构化和标准化的处理数据,如现病史中对症状的描述是否发热是否咳嗽等,将文本处理成结构化数据之后提取出来。L3是在L1和L2基础上综合多种逻辑处理的复杂字段,如BMI是经过身高和体重运算的变量。不同来源的数据被收集、整理和清洗后进入数据中台,集成为一个新的数据源,再按域别呈现在科研数据平台,实现共享。

  数据从医院原始业务系统要经过两次跃迁,才能进入科研数据平台。首先,数据从医院原始业务系统进入数据中台,数据在中台内被清洗,包括患者主索引清理、乱码错误数据清理、术语对照清理和文本字段清理成结构化数据。其次,数据从数据中台进入科研数据平台,按照医疗数据域分类呈现,或按患者视图呈现,数据可以查阅、导出和统计分析。

北京大学第一医院健康医疗大数据平台的建设实践与思考(图1)

  科研数据平台的数据治理包括数据初步清洗、数据标准化结构化处理和数据的医学逻辑调优,是科研数据平台建设的核心技术环节。数据中台是科研数据平台的底座。数据在数据中台经由清洗后具有可用性。对数据的清洗将数据量有效收敛,清除冗余或无效的数据;同时,将敏感的数据如人员基本信息进行。患者主索引的清洗保证了数据的准确与全面。以患者身份信息作为主索引,按照数据的完整原则收录全部患者就诊信息。单位清洗保证了指标单位的一致性,按照国标标准对各项指标计量单位进行统一,或者对不同来源数据进行单位换算。数值清洗保证了指标数据的正确性和可用性,将数值乱码和不同有效数字等情况识别出来并改正。标准化和PG电子结构化需要把同一实体的不同表达方式映射到同一实体名字上,从而统一表达方式。遵照的标准包括了ICD9、ICD10、。通过词汇标准化处理,为医学临床大数据中复杂、异构和非结构化的数据进行统一提供了标准化的参照。随后将文本拆解为结构化字段,通过自然语言处理技术(Nature Language Processing,NLP),将医学术语词库自动转换成本体知识库的标准术语,本地特有的词汇概念会被补充到本体知识库,从而形成更加完善的词汇体系。同时,对原始数据进行解析,识别出文本中的实体、属性和关系,转换成结构化数据医学逻辑调优内容包括3方面。首先,对电子病例报告表单(eCRF)进行优化,补充完善eCRF表单,让数据的呈现更加合理,使数据类型和科研数据平台的控件类型保持一致,如药品统一其商品名和通用名。其次,指标数据来源的优化与判断,例如判断患者是否便秘,应在字段在结果中检索便,周围字段检索秘干和费力,并且要排除否定语义,此指标值方为是。第三,采用数学计算产生新的医疗指标维度,给临床人员提供更多的可用变量。如通过出入院日期得出住院时长,通过体重和身高得出BMI指数等数据检索可以根据患者特征指标检索临床研究目标群体,也可根据临床试验设计条件查找患者指标数据。在查找患者指标时,不但可搜索到某位患者一次就诊的多指标和多次就诊的单指标,且能通过检索关系词andor和not对各组患者或病历分别进行交集、并集及排除的处理。经检索得到的数据是后续开展科学研究的基础,科研工作人员可从科研数据平台中搜索到患者群体后,将其检验、检查、药品和诊断等维度中某些指标数据导出,导出的格式默认是Excel,也可导出与SAS、SPSS、R等导入文件相匹配的文档格式。在科研数据平台中对指标数据的处理分为数据清洗、统计分析和预测模型。临床科研人员在数据清洗功能模块,可填充指标、组合数据和将连续性数据分组等。清洗方法包括变量分级、类别转变量、记录合并、缺失值填补、剔除文本、记录替换、变量拆分和变量计算等。科研工作人员可以科研数据平台上对指标进行描述性分析和差异性分析。利用描述性分析能看到连续性指标数据的最大值、最小值、平均值、标准差和四分位数等,还能通过柱状图、散点图查看数据特征。预测模型包括有线性回归、Logistic和生存分析模型,以及随机森林和支持向量机等机器学习算法,把指标导入相应模块可用来开展相应的建模分析。北京大学第一医院采用系统化平台建设模式构建健康医疗大数据平台,该模式以数据为中心,涵盖数据的全生命周期管理,从数据源头的多系统抽取与标准化,到数据中台的高效清洗与治理,再到科研数据平台的智能化分析与建模,形成一套闭环流程。该平台首先实现多源异构数据的统一抽取与标准化处理,通过数据中台进行精细化的清洗与治理,确保数据的准确性和可用性。随后,利用智能化工具进行数据的分析与建模,为科研和临床提供有力支持。此外,平台还注重跨学科团队的协同合作,引入临床医学、计算机科学和统计学等多领域专家,确保平台的设计、建设与运行能够紧密贴合科研与临床的实际需求。这一模式不仅提升了数据利用效率,更为智慧医疗的发展奠定了坚实的基础。北京大学第一医院自建立健康医疗大数据平台以来,也面临诸多挑战。第一,数据标准化与互操作性。由于临床数据分散在医院各个系统中(如HIS、LlS和PACS),各系统的数据结构和标准存在差异,导致数据非结构化、非标准化,难以形成符合科研需求的研究变量。解决这个问题需要建立统一的数据标准和规范,并采用自然语言处理技术(NLP)来实现数据的标准化和结构化。第二,数据安全与隐私保护。在收集、存储和使用健康医疗数据时,如何平衡数据利用与个人隐私保护之间的矛盾成为一大难题。必须严格遵守相关法律法规,采取加密措施和技术手段来保护数据的安全性和患者隐私,同时,参与数据治理工作的相关方均须签署保密协议。第三,数据质量和完整性。由于数据来源广泛且多样,数据的质量控制和完整性验证变得复杂。需通过数据治理流程,如初步清洗、标准化结构化处理及医学逻辑调优等步骤来确保数据质量。最后,技术更新与维护。随着技术的发展,平台需不断更新迭代以适应新技术的要求。这不仅涉及硬件设备的升级,还包括软件系统的维护以及新技术的引入,比如大语言模型的应用等。临床数据和科研数据差异较大,前者以病人康复为目的,是诊疗过程的有效记录;后者以学术研究为目的,是研究开展的数据依据。通过科研数据平台建设实现了临床数据向科研数据的有效转化,为科研工作者提供了统一完整的数据视图。随着医学研究的开展,所涉及的数据来源也越来越多,不仅局限于医院各系统(HIS、LlS和PACS)中,同样也包括了多个分院区诊疗与科研数据数据、专病队列随访数据和基因与组学信息等其他数据。在建设过程中,应不断拓宽数据范围,将更多元的数据纳入科研数据平台采集范围。通过有效的治理后形成可以利用的科研数据,助力高水平科学研究的开展医疗机构在进行科研数据平台建设时,应充分考虑并提升临床专家的参与度。这不仅有助于确保数据的实际应用价值,更能使数据采集更具前瞻性。临床专家作为医疗科研工作的核心,通过项目的前瞻性设计,能够使数据平台的建设更加贴近医疗实践,更好地服务于既定科研目标。同时,通过与临床专家紧密合作,能够更准确地把握科研数据的需求和变化,从而进行有针对性的数据采集和整理。在平台建设中,应该同步进行跨学科的团队构建,包括临床医学、计算机科学和统计学等领域的专家,共同参与平台设计、建设与运行相关工作在科研数据平台的构成中,数据中台的数据是多个异构数据源有效集成而来,数据平台将数据从异构数据源流向统一的目标数据库。如果以端口等形式将数据固定到集成平台,不但显著减少数据整合的工作量和工作时间,后期在技术上更快实现数据的自动转存,提升数据获取能力。数据的推送频次决定了科研人员是否能使用最新数据开展科学研究,可以以NLP技术为基础,进行半自动数据清洗入库,尽可能减少数据清洗和治理所需要时间,从而使数据平台的数据更新周期满足应急科研的需求Generative Pre-Trained Transformer(GPT)是一种基于深度学习的自然语言处理技术,可用于分析大量的医疗数据,对专病数据库的建设具有颠覆式的影响。GPT可根据医疗数据中的文本信息,自动对数据进行分类和标记,识别和纠正数据中的错误,如格式错误、缺失值和异常值等,从而提高数据的质量和可用性。在信息抽取上,ChatGPT可以将大段临床文本进行结构化,从而提取出关键信息。这种能力使得ChatGPT在处理临床数据时具有很大的潜力。例如,它可自动抽取病例中的关键信息,如病人的基本信息、病史和治疗方案等,并将其整理成结构化的数据,方便后续的数据分析和科研工作。同时,也可通过优化查询算法,提高查询效率,使医生和研究人员能更快地获取所需的医疗数据。在进行数据平台建设时,应以大语言模型的应用方向进行积极探索与技术储备。北京大学第一医院健康医疗大数据平台的建设实践,为国内外医疗机构在数据整合、治理与应用方面提供了宝贵的借鉴。首先,本研究通过系统化的数据收集与治理流程,实现了临床数据向科研数据的高效转化,为临床科研提供了坚实的数据基础。这一做法有助于提升医疗机构的科研效率与质量,推动科研成果的产出。其次,平台的建设过程中强调了临床专家的参与度,确保了数据的实际应用价值与前瞻性。医疗机构在构建类似平台时,可借鉴此模式,通过跨学科团队的构建与紧密合作,确保数据平台的建设与医疗实践紧密结合,更好地服务于科研需求。此外,平台采用了先进的集成平台与自动化数据推送技术,显著提升了数据整合与获取的能力,为医疗机构在数据更新与应急科研需求方面提供了有力支持。同时,大语言模型等前沿技术的探索与应PG电子用,也为未来智慧医疗的发展奠定了技术基础。综上所述,北京大学第一医院健康医疗大数据平台的建设实践,不仅在数据整合、治理与应用方面取得了显著成效,更为医疗机构提供了宝贵的建设思路与参考路径,这些实践经验对推动智慧医疗建设、提升医疗服务水平具有重要的借鉴意义。

  特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

  下一篇:从数据安全到服务升级,河南宜阳县人民医院张向阳谈DeepSeek落地之路

  从数据安全到服务升级,河南宜阳县人民医院张向阳谈DeepSeek落地之路

  超百家三级医院接入DeepSeek!院内AI专家现身分享,本地部署与应用开发的探索

  从数据安全到服务升级,河南宜阳县人民医院张向阳谈DeepSeek落地之路

  超百家三级医院接入DeepSeek!院内AI专家现身分享,本地部署与应用开发的探索