大数据医疗时代的人工智能与隐私保护
大数据很早就开始为医疗行业保驾护航了,但到底 什么是大数据医疗,这里首先做一个定义。学术界通 常通过4V来描述大数据:海量数据规模(Volume)、 快速的数据流转(Velocity)、多样的数据类型 (Variety)和较低的价值密度(Value)[7]。从不同领 域出发,对大数据的理解也各不相同。在医疗领域,这 4V也同样成立:医疗数据正以史无前例的速度不断更 迭(Volume);病种繁多,病人各异,医疗数据必须 快速流转(Velocity);医疗数据有文字、有影像,甚 至各个医院还有各种不同格式的文件(Variety);对医 疗数据的汇聚通用还远远不够(Value),要想办法提 高对医疗行业数据的“加工能力”,通过“加工”实现 数据的“增值”。
王旭(贵州大学大数据与信息工程学院,贵州省量子信息和大数据应用技术研究院,贵州,贵阳 550025)
摘要:近年来,随着大数据挖掘与分析等方法的逐渐成熟,人工智能技术已经在医疗领域广泛应用。本文详细 讨论了在医疗数据采集端与人工智能应用端隐私保护所面临的各项问题,从技术的角度、法律的角度以及伦理 道德的角度分别分析了医疗隐私安全,并最终提出了四条建议,为医疗行业隐私保护的理论和实践发展提供了 可行路径。 关键词:医疗大数据;深度学习;卷积神经网络;人工智能;隐私保护
是打通各个医院和社区间的数据交换共享渠道。美国 基于此考虑建设了一个电子健康记录系统(Electronic health records,EHRs),十年内积累了1000万名病人 的记录。EHR的潜在应用价值是巨大的,如果好好加以 利用,这相当于积累了20万年医生的智慧和1亿年的疾 病情况[9]。在这样的技术不断突飞猛进的同时,我们享 受到了科技进步带来的好处。但我们不禁要问,在人工 智能学习分析大背景数据的同时,病人的隐私被侵犯了 吗?存在道德风险吗?我们的现行法律能否保障我们在 治疗中和治疗后的权益?
个人隐私向来是一个很难定义的概念。因为个人隐 私无法像上文中的大数据一样用几个“V”就可以描述, 个人隐私的定义要与其内涵强关联,与行为人强关联, 涉及到内涵溢出的目的、频率以及具体信息[6]。当这些 关联规则被违背时,我们可以说个人隐私被侵犯了。隐 私侵犯可以发生在错误的行为人接触到信息时,或者内 涵溢出的目的动机不符合预设时,或者内涵溢出的频率 超出规定时等。健康隐私的内涵包括但不限于患者的隐 私在病历中的详细记载,病情、个人史、家族史、接触 史、身体隐私部位、异常生理物征等病理和个人生活秘 密。侵犯个人健康隐私是否成立不应基于信息量或对象 数据集的大小,因为即使对象不大其后果仍可能是很严 重的。在人工智能医疗应用过程中的个人隐私问题主要 可出现在图1所示各环节。主要造成溢出的过程是数据汇
数据汇聚过程中的隐私问题也涉及很多法律和道 德问题。健康隐私数据的来源包含很多方面:电子病 历、医疗保险、智能健康终端设备和社交媒体等。美 国关于隐私安全的立法较早,1974年即通过《隐私权 法》(The Privacy Act),后在2003年生效《健康保 险携带与责任法》(Health Insurance Portability and Accountability Act, HIPAA)。通过HIPAA规定了很多 EHR的隐私保护细则,对使用EHR系统也有明确的规 定,是否可以对EHR加以利用取决于信息是如何建立 的、谁在维护以及当事人情况 。 [10] 中国法律暂未对个 人健康隐私有进一步明确的规范,只是在《中华人民共 和国网络安全法》第四十四条强调了“任何个人和组织 不得窃取或者以其他非法方式获取个人信息,不得非法 出售或者非法向他人提供个人信息。”以及正在审议中 的《中华人民共和国基本医疗卫生与健康促进法》第 二十一条提到:“国家保护与公民健康有关的个人隐 私,确保个人健康信息安全。除法律法规规定或本人同 意外,任何组织和个人不得获取、利用和公开公民个人 健康信息。”从这两条法律法规的对比可见,我们的相 关法律和规范还比较宏观,缺乏对具体情况的考虑。我 国在2018年5月1日开始实施的《信息安全技术个人信
大数据医疗伴随着新的人工智能技术的进步而蓬勃 发展,例如用人工智能来进行预测和生成推荐系统, 其中最典型的应用之一是图像分析。目前国内诊断病 人CT 图像还普遍采用两个医生同时查看的形式,当两 个医生对该图像得出相同的判断时容易认定,但当两 个医生得到的结论不同时则需要讨论。这种方法是为 了提高诊断的准确率,但是耗费人力。卷积神经网络 (Convolutional neural networks,CNN)是一种典 型的深度学习算法,已经在医学图像领域拥有广泛的 应用。CNN可以接受各种医学图像的训练,包括放射 科、病理科、皮肤科和眼科等。CNN获取输入图像, 并使用简单的操作(如卷积、汇集和完全的连接层)将 其顺序转换为扁平向量,输出向量的元素表示疾病存在 的概率,因此可以辅助医生进行诊断,在很大程度上缓 解医生的工作量[8]。另外一个人工智能的医疗大数据应 用是预测治疗路径,例如通过多种类多形式数据预测一 个内伤患者发生大出血的概率,并建议采取干预治疗, 或者预测一个重伤人员在一年内死去的概率,从而建议 从传统治疗转为临终关怀[6]。
在数据汇聚过程中的隐私问题主要指担忧隐私被直 接侵犯的情况,或者可以理解为如图1所示输入和存储 中造成的内涵外溢。这可以是可预测的结果,例如乙肝 病毒库的隐私泄露可能导致当事人找工作受到歧视。有 的结果是不可预测的,比如一个人总是担心自己的隐疾 被泄漏出去而导致精神紧张甚至引发抑郁症。也要考虑 到另一种情况,即是很多隐私是在当事人不知情的状况 下泄漏的,比如某些公司刻意收集网络上的个人隐私状 况或非法入侵某些医疗机构数据库窃取数据,即使这些 泄漏数据并未被直接加以利用、给当事人带来损失,甚 至记PG电子通信录也已被删除,然而此种情况也应属于医疗数据安 全问题,可能有潜在的危害,应该被予以重视。
在医疗行业中,医院信息系统基本完成了医院内部 的流程管理、数据积累等工作,现在正面临着海量数据 的挑战[1],医疗已经进入了大数据时代。近年来,随着 机器学习技术和人工智能的发展,大数据和医疗的结合 更是被推向纵深。从图像识别[2]、图像检索[3]到复杂疾 病的诊断[4-5],人工智能无一不正发挥着重要作用。随 着技术领域的快速进步,挑战也随之而来,其中最大的 一个挑战就是隐私保护的问题[6]。
在真实的应用场景中,人工智能辅助医疗要通过大 量的数据积累,包括疾病诊断记录、病人用药效果、 基因数据、家庭病史、行为数据甚至社会环境状况数 据等。在国内,要实现上述数据积累,最重要的壁垒