1.2 医疗大数据的现状
研究医疗大数据之前,首先要了解什么是个人健康大数据。个人健康大数据是指个人从出生到死亡的全生命周期过程中,因免疫、体检、门诊、住院等健康活动所产生的大数据。按照数据的归属不同,可分为留存到医疗卫生领域的数据、金融保险领域的数据和公安领域的数据等。留存于医疗卫生领域的大数据,我们理解为医疗大数据。通过对医疗大数据的分析和加工,可以挖掘出和疾病诊断、治疗、公共卫生防治等方面的重要价值。
医疗大数据的应用,并不仅仅是在信息化时代才出现。早在19世纪,英国流行病学家、麻醉学家约翰·斯诺(John Snow)博士就运用近代早期的数据科学,记录每天的死亡人数和伤患人数,并将死亡者的地址标注在地图上,绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的,斯诺通过调查数据并加以汇总,确定了“霍乱”的元凶是被污染的公共水井,这也奠定了疾病细菌理论的基础。
从最早的手工统计,到计算机的出现,再到各种传感器技术的普及,数据的收集和存储更加方便,变成了自动化、数字化、密集化的方式,来源也越来越广。在过去的十年里,随着电子病历的实施,医疗保健数据量呈指数级增长,再加上制药企业和学术研究机构档案,以及数万亿的数据流从智能化设备、可穿戴式设备的传感器中得到,医疗大数据洪流已经滚滚而来。
现阶段电子病历的广泛应用,使得有价值的医疗大数据实现了快速增长,可供医生、研究者和患者使用的数据量极大地提升。大数据分析可以帮助医生确定治疗方案、药物种类和剂量、公共卫生防疫等临床指导,也可以帮助医院的管理者制定更好的管理方式,帮助保险方制定更好的医疗保险支付模式。医疗服务的提供者获取了更多的大数据信息之后,从经验医疗向循证医学进行转变。我们需要不断引入新技术、新概念,提升对这些数据的管理和分析能力,为管理者和临床医务人员做出准确的工作决策提供依据。
1.2.1 医疗大数据的特征
医疗大数据呈现以下四个特点。
第一,数据量大。从TB到PB到EB,再到ZB,医疗大数据以48%的年增长率快速增长,这些数据早已超过了人力所能处理的极限。预计到2020年,全球数字将达到2314EB,已经达到了ZB级别。
第二,数据种类多。医疗数据中既有结构化的数据,也有非结构化的数据。结构化数据包括Oracle(甲骨文股份有限公司,是全球大型数据库软件公司)、MySql[4]等数据库的数据,半结构化数据如XML文档,非结构化数据包括Word、PDF文档、音视频、影像等。
第三,数据产生快,处理快。医疗信息服务中会存在大量在线或实时数据分析处理的需求。需对数据进行实时或准实时的处理、秒级的查询需求响应。例如临床中的诊断和处方数据、健康指标预警等。
第四,数据价值密度低。各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复或不一致,很难得到有效利用。
1.2.2 医疗大数据的优势
有效地整合和利用数字化的医疗大数据,对个体医生、康复中心、大型医院和医疗研究机构都有着显著的好处。潜在的利益包括:(1)更多、更准确的数据,使得疾病能在早期被监测到,从而使治疗更容易和有效。(2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。(3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定患者的住院时间,哪些患者会选择非急需性手术,哪些患者不会从手术治疗中受益,哪些患者会更容易出现并发症等。据麦肯锡[5]估计,单单就美国而言,医疗大数据的应用可以为医疗开支节省3 000亿美元/年。
医疗大数据的应用,可以从以下几方面减少浪费和提高效率。
临床操作:相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗患者。
研究和发展:在药品和医疗器械方面,建立更低磨损度、更精简、更快速、更有针对性的研发产品线。在统计工具和算法方面,改善临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和患者的病历,以确定后续的迹象,并在产品进入市场前发现患者对药物、医疗方法的不良反应。
公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快、更准确地研制靶向疫苗,如开发每年的流感疫苗。
此外,医疗大数据的分析,还有利于以下几方面的发展。
循证医学:结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据,用以寻找与病症信息相匹配的治疗方案,预测疾病的高危患者或提供更多高效的医疗服务。
基因组分析:更有效和低成本执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入患者病历记录。
提前裁定欺诈分析:快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。
设备/远程监控:从医院和家庭医疗装置采集实时大容量的快速移动数据,用于安全监控和不良反应的预测。
患者的个人资料分析:全面分析患者个人信息(如分割和预测模型),从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性地预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。