大数据:挖掘数据背后的真相
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

·为什么会发生数据造假

请再看一下“与恋人闹点别扭”这一问题。你有没有想到,与高深的统计学和AI相比,“别扭程度如何用数字表现出来”“寻找两人闹别扭的原因”好像更难。

数据科学家很重视“发现”这类数字和原因。为什么?因为这是确保推导出结论的分析步骤

分析的目的虽然因发现问题型、解决问题型和验证结果型而各有不同,但推导出结论的分析步骤都是相同的。用图来表现,请参见图1-6。

图1-6 分析步骤

最初是设定目的。根据刚才介绍的分析类型,分析为什么闹别扭、怎么做才能和好如初、出现了哪些变化……决定为了搞清什么而展开分析就是设定目的。

所有分析都被“设定目的”左右。如果把方向搞错了,那么无论在多么好的时间起跑,都会因为犯规而丧失资格。如果不想浪费付出的努力,就需要在设定目的上花费更多的时间,而这对大脑的逻辑性提出了很高的要求。

接下来就是收集数据。要想弄清楚由设定目的而确定下来的“想了解的事情”,就要思考需要什么样的数据并着手收集。如果没有数据,就有必要从预估开始。

为了思考闹别扭的理由而将“网聊的次数”和“发送的文字数”作为闹别扭的原因,将“已读信息的件数”和“回复信息所用的时间”作为闹别扭的结果,那就要将这些数据收集好。把模棱两可的别扭程度与“已读信息件数”联系起来,对情商也提出了很高的要求。

分析并不仅仅是个人的感想,还是分解事物、找出原因,并由此寻找解决方法的思考。因此,为了不引起认识上的分歧,使用世界通用的“数字”来表现是最好不过的。所以,收集数据非常重要。

接下来是对收集来的数据进行检查/统计。收集来的数据未必都是百分之百正确的,如果把错误的数据包括在内进行分析,就很可能得出奇怪的结果。我自己也有过多次重新回到上一个步骤,甚至重新收集数据的经历。这项工作需要严肃认真地对待、脚踏实地地进行,因为检查/统计关乎数据的精度。

作为具有代表性的例子,关于酌量劳动制的数据异常值问题,在2018年2月的日本国会上作为“工作方式改革”的重点事项被受理。尽管以天或周为单位来看,加班时间为零,但以月为单位的加班时间却被清清楚楚地记录下来,很多这样的数据都被很好地保存着,所以这成了引发朝野上下关注的重大问题。

在野党和大众传媒展开了一场批判政府的大合唱,“官僚在玩揣摩游戏”“政府在搞阴谋”。但在数据科学及其相关学科领域,却有很多人发出了“数据的检查工作没做好吧”“没想到官僚都读不懂数据”的奚落。这件事给人们留下了很深的印象。

到这里,我们终于要着手分析了。

对于“设定目的”、“收集数据”和“检查/统计”三个步骤,无论是哪位数据科学家都会不惜花费大量时间。如果在这几个步骤上节省时间、敷衍了事,就很容易得出失真的分析结果,从而陷入多次返工的困境。