区块链应用指南:方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5 区块链与大数据

大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。大数据已在人们的生产生活中得到了广泛的应用,特别是2020年新冠肺炎疫情突发,大数据在疫情的统计、分析、判断中发挥了重要作用。在当前由信息技术(Information Technology,IT)时代到数据技术(Data Technology,DT)时代的发展过程中,数据已成为一种能够流动的资产,通过分析、利用大数据,能够挖掘出其强大的社会价值及经济价值。大数据的发展取得了重要的成果,但目前也面临着巨大挑战:

(1)数据源间数据的流通与共享打破了原有数据管理的安全边界,数据在流动中可能存在的安全隐患增加。

(2)针对大数据资源的窃取、攻击与滥用等行为越来越严重,对国家及相关机构数据安全防护能力提出了更高的要求。

例如,Facebook数据外泄事件,使大数据资源的非授权使用成为问题,其5000万名用户的个人数据被泄露,间接影响了2016年美国总统大选的结果。2019年,勒索软件相关的数据恢复成本增加了一倍以上。2020年,带有数据泄露机制的勒索软件给企业带来了更加高昂的数据恢复成本。2020年,加拿大最大的医疗实验室测试服务提供商 LifeLabs 发生了大规模的数据泄露事故,近1500 万名加拿大人的个人和医疗信息被泄露,其不得不向攻击者缴纳赎金。专家认为攻击者采用了“勒索软件+数据泄露”的双重手法,大大提高了赎金的“征收”力度。因此,大数据的非授权共享不但会影响用户自身的数据安全,还会对国家安全造成严重威胁。实现安全、可控的大数据资源流通与共享,是大数据应用及其发展所面临的核心科学问题。

区块链以其可追溯性、安全性和防篡改性等优势,将在解决数据互联互通和开放共享等问题上发挥巨大作用,最终减少信息摩擦、突破信息孤岛,实现“社会化大数据”的目标。从长远来看,区块链与大数据的结合可能给社会生产生活带来很大变化。2020年4月,中国互联网络信息中心(CNNIC)发布《第45次中国互联网络发展状况统计报告》,指出2020年大数据领域将呈现的十大发展趋势之一是区块链技术的大数据应用场景渐渐丰富[5]。根据Neimeth估计,到2030年,区块链分布式账本的价值可能会达到整个大数据市场的20%,产生高达1000亿美元的年收入,超过PayPal、Visa和Mastercard的总和[6]

区块链技术的分布式架构与智能合约技术恰好与大数据环境下分布式、动态访问控制需求相吻合,大数据访问控制涉及大数据资源的采集、汇聚、管理、控制等,大数据访问控制架构与区块链结合后可分为基础数据层、资源管理层、设施层、事务层、共识层、合约层等几部分,如图2-5所示。

图2-5 区块链+大数据可视化分析平台架构

(1)基础数据层:真实的大数据资源,包括结构化数据、非结构化数据和半结构化数据。依托区块链,通过数据采集实现可分布式存储,保障大数据的数据层的安全,避免了传统方式下数据分布式存储、逻辑集中的模式。

(2)资源管理层:基于区块链技术对大数据资源进行资源管理,实现不同来源File、SQL等大数据资源的汇聚。

(3)设施层:由区块链平台为大数据访问控制提供基础设施,是整个架构的基础,这个大数据的基础设施层是大数据访问控制平台事务和智能合约的载体,是基于区块链技术,形成与上层应用的衔接。

(4)事务层:提供针对数据、策略、合约等访问控制的事务控制。例如,数据事务是对大数据资源进行管理,承接资源管理层的诉求;策略事务主要针对访问控制策略管理与合约层进行配套提供数据支撑;而合约事务与区块链的智能合约挂钩,为智能合约提供运行环境。

(5)共识层:通过各类共识算法(如区块链的PoW、PoS、BFT等共识算法)来保证分布式节点间访问控制数据的一致性和真实性,从而在节点间达成稳定的共识。

(6)合约层:与事务层相链接,提供访问控制策略管理、控制访问请求及实体属性管理等功能。