中国人工智能发展报告:知识工程(2019—2020)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 从大数据到大知识

大数据通常被人们用3V、4V甚至nV(n>4)来刻画其性质,其中最重要、最根本的是大价值(Value)。而其中所蕴含的大量知识是大数据大价值的具体体现。因此,如何从大数据中挖掘知识是大数据研究的第一要务。为此,吴信东等人提出大数据知识工程(BigKE)的概念,旨在将大数据转化为大知识并服务于现实应用。

大知识(Big Knowledge,BK)一词是紧随着大数据热潮出现的。从大数据、大数据挖掘,到BigKE,又到BK,再到BK挖掘,人们的理念一步步朝着相同的终极目标汇聚。例如,2013年墨菲公布了谷歌旨在实现“从字符串到事物”的知识图谱(Knowledge Graph,KG)项目;拉塞尔提出“将大数据变为大知识”的诉求;亚伦也呼吁“用基础设施分析将大数据变为大知识”;利博维茨提出“如何从大数据中提取大知识”的疑问。然而,他们都仅仅提到了大知识这一概念,但没有给出具体的定义。墨菲称知识图谱为大知识,但没有从一般意义上具体讨论什么是大知识。赫斯科维茨指出,大知识不仅是通过各种分析工具对大数据进行分析后的一组洞见(Insight),更应该是对这些洞见进行提炼的产物。吴信东等认为大知识是除人类专家的领域知识之外,从异构(Heterogenous)、自治(Autonomous)的信息源中获取的复杂(Complex)、动态(Evolving)关系的碎片化知识(HACE)。

陆汝钤等人指出,大知识研究目前在以下几方面取得了进展:①将大知识与传统知识进行了区分;②提出将大数据变为大知识;③呼吁从大知识中获取利益;④认识到了构建大知识的复杂性与难度。然而,已有关于大知识的研究还存在诸多局限:①关于大知识的共性,目前尚没有像大数据的nV和HACE那样的详细分析;②缺少处理大知识的特殊策略。多数研究都只把大知识视为知识管理的一种技术;③缺少对大知识研究的综述;④许多研究者尚未意识到大数据挖掘并不一定产生大知识;⑤许多人都在讨论大数据分析,但是很少有人关注大知识分析,而后者与前者必定有很大不同;⑥目前对于大知识概念的自然延伸,即大知识系统(Big Knowledge System,BK-S)及其相关工程问题,都还没有引起关注。

为此,陆汝钤等人对大知识进行了深入探索,提出了大知识的10个大规模性质(Massive Characteristics,MC),这里的C同时也代表了大知识10种性质的英文首字母,包括概念(Concepts)、连通性(Connectedness)、干净数据资源(Clean Data Resources)、案例(Cases)、可信(Confidence)、能力(Capabilities)、累积(Cumulativeness)、关注(Concerns),以及一致性(Consistency)和完备性(Completeness)。这10个大规模性质中,前五个性质从一般意义上刻画了大知识,第六个是大知识系统(Big Knowledge-System,BK-S)应具备的性质,第七、第八两个性质反映了高级大知识系统(Advanced BK-S)的特性,最后两个性质则提出了未来对大知识系统强大功能的需求。2.2节和2.3节将逐一阐述上述10个大规模性质,并介绍大知识系统和大知识工程。