大数据还是大错误
大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。
五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
谷歌流感趋势不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如流感症状或者我身边的药店)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。
谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问,谷歌给我们带来了什么新的科技?
在这诸多流行语中,大数据是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。
然而在大数据里,大多数公司感兴趣的是所谓的现实数据,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。
大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证:
1)数据分析可以生成惊人准确的结果;
2)因为每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;
3)不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;
4)不再需要科学的或者统计的模型,理论被终结了。《连线》杂志2008年的一篇文章里豪情万丈的写到:数据已经大到可以自己说出结论了。
不幸的是,说的好听一些,上述信条都是极端乐观和过于简化了。如果说的难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者译者注)DavidSpiegelhalter评论的那样,这四条都是彻头彻尾的胡说八道。
在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华。斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。
咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。
虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。
Spiegelhalter教授曾说到:大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。
在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。
问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像ViktorMayerSchnberger和KennethCukier在《大数据》这本书中形容的那样:因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。
这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。
谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。
统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。
在1936年,民主党人AlfredLandon与当时的总统FranklinDelanoRoosevelt(富兰克林。罗斯福译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。
最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4的选民则会投给第三候选人。
然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人GeorgeGallup通过一场规模小的多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。
观点调查是基于对投票人的的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。
样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度,则会随着样本数量的增加而减小。对于大部分的调查来说,1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。
就算3000次的访谈已经很好了,那240万次不是会更好吗?答案是否定的。样本误差有个更为危险的朋友:样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人;而样本偏差则意味着这个样本可能根本就不是随机选择的。GeorgeGallup费了很大气力去寻找一个没有偏差的样本集合,因为他知道这远比增加样本数量要重要的多。
而《读者文摘》为了寻求一个更大的数据集,结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代,这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果,这使得错误更进了一步。这两种偏差的结合,决定了《文摘》调查的失败。Gallup每访谈一个人,《文摘》对应的就能收到800份回执。如此大规模而精确的调查最终却得出一个错误的结果,这的确让人难堪不已。
如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱,很难找出来这里面是否存在样本偏差。而且由于数据量这么大,一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上,问题依然存在。
《大数据》这本书的联合作者,牛津大学互联网中心的ViktorMayerSchnberger教授,曾告诉我他最喜欢的对于大数据集合的定义是N所有,在这里不再需要采样,因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当N所有的时候确实不再有采样偏差的问题,因为采样已经包含了所有人。
但N所有这个公式对大多数我们所使用的现实数据集合都是成立的吗?恐怕不是。我不相信有人可以获得所有的数据,PatrickWolfe说,他是伦敦大学学院的一名计算机学家和统计学教授。
推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录,然用后来推导出公共情绪方面的一些结论(实际上,大多数的研究者使用的都是推特提供的一个名为消防水龙带的数据子集)。然而即使我们可以读取所有的推特记录,推特的用户本身也并不能代表世界上的所有人。(根据Pew互联网研究项目的结果,在2013年,美国的推特中年轻的,居住在大城市或者城镇的,黑色皮肤的用户比例偏高)
我们必须要搞清楚数据中漏掉了哪些人和哪些事,尤其当我们面对的是一堆混乱的现实数据的时候。KaiserFung是一名数据分析师和《数字感知》这本书的作者,他提醒人们不要简单的假定自己掌握了所有有关的数据:N所有常常是对数据的一种假设,而不是现实。
在波士顿有一款智能手机应用叫做颠簸的街道,这个应用利用手机里的加速度感应器来检查出街道上的坑洼,而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后,只要在城市里开着车,他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情,就这样通过技术的发展,以信息穷举的方式得以漂亮的解决。波士顿市政府因此骄傲的宣布,大数据为这座城市提供了实时的信息,帮助我们解决问题并做出长期的投资计划。
颠簸的街道在安装它的设备中所产生的,是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区,因为那里有更多的人使用智能手机。颠簸的街道的理念是提供关于坑洼地点的N所有的信息,但这个所有指的是所有手机所能记录的数据,而不是所有坑洼地点的数据。就像微软的研究者KateCrawford指出的那样,现实数据含有系统偏差,人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象,但N所有往往只是一个颇有诱惑力的假象而已。
当然这个世界的现实是如果你能靠某个概念挣到钱,就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店Target的传奇式成功(由纽约时报的CharlesDuhigg在2012年报道出来)以后估计都要垂涎三尺。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。
Duhigg讲的最多的故事是这样的:一名男子怒气冲冲的来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方的向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。
这是统计学的魔法吗?或许还有更世俗一点的解释。
KaiserFung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为这里面存在一个严重的虚假正面效应的问题。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。
如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。
在CharlesDuhiggs的描述中,Target公司会在给你的购物券中随机性的掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入的探测她们的隐私,进而感到不安。
Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。
以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。
一位名叫JohnIoannidis的传染病学家在2005年发表了一篇论文,题目叫为什么大多数被发表的研究结果都是错误的,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的多重比较问题。
当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是统计上显著的。
当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对效果的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多的不同的相关性测试,偶然产生的结果就会淹没真实的发现。
有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比相当于信号噪声比很快就会趋近于0。
更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。
毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的DavidSpiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的机器学习的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近无需理论模型、纯数据驱动的算法黑盒子这一目标的产品。用Spiegelhalter的话来说,它是一个令人惊讶的成就。这一成就来自于对海量数据的聪明的处理。
然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。
伦敦皇家学院的DavidHand教授讲过一句话,现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案。
要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。
UCL的PatrickWolfe说,大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。
统计学家们正争先恐后的为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。
产妇吃饭时可以绑束腹带吗束腹带是借助物理方法进行帮助收腹的一种腹带,分产后专用和非产后专用。那么产妇吃饭时可以绑束腹带吗?下面请大家来本站学习一下孕妇用品小知识和孕婴安全小知识吧。产妇吃饭时可以……
旅行我的最爱世界那么大,我想去看看。题记十三岁,有位老人打趣地问我曾去过哪里?打开记忆的闸门,许多地方如滔滔江水般涌来,伸出手指头数一数,不知不觉走过了国内十三个省以上,……
红与黑中于连的结局为什么是悲剧于连的矛盾性格分析《红与黑》是法国著名作家司汤达先生的代表作之一,书中,作者赋予人物以人文主义精神,标志着批判现实主义文学的开端,因此具有十分重要的研究价值。这部作品的主人公于连是一个集坚强与软……
老年人中抑郁症状与冠心病和死亡率的关系老年抑郁症是一组较为常见的精神障碍。且直接影响老年人生活质量。抑郁在老年冠心病中发病率高、危害大,冠心病是威胁人类健康的重要疾病。冠心病可以引起或加重抑郁。近年来研究表明,抑郁……
欧莱雅男士美白洗面奶怎么样男人皮肤看起来白净真的欧莱雅男士美白洗面奶怎么样欧莱雅男士控油炭爽净亮洁面膏对于皮肤油脂分泌旺盛导致皮肤暗沉的男生来说是一款性价比较高的洗面奶。大油皮的学生党可以考虑欧莱雅男士控油炭爽净亮洁面……
我的植物朋友虎皮兰我家的阳台上养了几盆虎皮兰,它们根茎很短、叶子很长,远远望去就像倒立在花盆里的一把把宝剑,又像一个个身穿绿色军装的士兵,挺拔地站在那里。叶片上布满了一条条深绿色的波纹,像极了老……
爷爷是个勤劳的清洁工我的爷爷是一名清洁工人,每天都要去市场上班,他在这个岗位任劳任怨工作了二十多年。爷爷工作上也遇到过很多的困难。比如,有一次他刚扫完地正准备下班回家,可卖菜的老板把剥下来的……
女生自慰会引起月经不调吗自慰跟月经周期规律没有直接的关系,但产期自慰会是神经处于紧张、恐惧状态,这时有可能就会引发月经不调。生活中不管是成年的,还是未成年的,大多女生都有自慰的习惯。但对于自慰知……
女性乳房出水的大原因女性乳头出水是何原因?原因1、乳腺膨胀乳腺膨胀是乳头出水的一个最常见原因。原因2、乳头瘤乳头瘤是在乳液管道里面生长的一种体积很小的良性肿瘤。原因3……
独眼大侠清咸丰年间,江南石门县出了个有名的武士,名叫达臻,他自幼拜名侠为师,轻功剑术一流,还练成了一手金钱飞膘。他不但武功超人,更兼性情耿直,好打抱不平。这年开春,达臻被石门知县……
盘点全国各地红烧肉的做法全国各地红烧肉的做法上海笋干红烧肉笋干烧肉一道美味家常菜,此菜笋干香,肉软烂,酱红色,味鲜香,回味悠长,是下酒佳肴。笋干是一种富有营养价值并具有医药功能的美味……
好看的中长中分卷发发型助你时尚洋气感中分卷发发型LOOK1时尚指数:时尚看点:棕色染发的这一款中分卷发尽显时尚女人味质,搭配那及肩的微卷头发,更是彰显出十足的妩媚动人感。中分卷发发型LOOK2……
多想告诉你每当你用前所未有的激情打着你的游戏时;每当你拿每个月的生活费去充值游戏币时;每当你因父母不让你去游戏厅,而和父母吵架时,我多想告诉你我从小就敬佩的哥哥,请放下手中的鼠标键盘,握……
山西三月三山西洪洞县甘亭镇羊獬村,史称唐尧降生之地。传说4700多年前,尧将二女嫁舜后,羊獬村人便以娘家人自居。每年农历三月初三,羊獬人前往历山接姑姑回娘家省亲;四月廿八日,为尧诞辰贺寿……
细菌最大有多大世界上最大的细菌附图片导语:我们时常挂在嘴边的一句话:勤洗手预防细菌。细菌是所有生物数量中最多的一类,其形状多样,有球状、螺旋状以及杆状。细菌对人体健康有很大影响,那么你们知道世界上最大的细导……
四十深圳全球性的新冠衰退中,美国二季度GDP环比折年率下降32。9,创1947年该数据被跟踪以来最大跌幅。相比之下,中国上半年GDP同比仅下降1。6,国人的宅家坚守促成了疫情的快速控制……
小狗钱钱读书笔记《小狗钱钱》这本书的作者是博多舍费尔,德国人。这本书讲述的是一个童话故事,从这个童话故事里可以了解一些金钱的秘密和真相,以及投资、理财的办法。单单听这个书名字和看上面简短……
上水造句用上水造句大全151。等到了小年,祖母在灶王爷像前的桌案上摆上水饺、糖果、料豆和秣草,其中后两样是给灶王爷的坐骑准备的。152。,中间加上水滴石穿,白水鉴心的道法灵术,根本没放在他眼里……
令我印象深刻的一个人那一天清晨,我跟往常一样去帮全家人买早餐,再次经过那条街时,我不由地皱了皱眉头,绕了好大一圈才走了过去。因为不知从什么时候开始,街面上多出了个乞丐,他面容瞧醉、披头散发,拖着两……
升级后的百达翡丽鹦鹉螺让表迷彻底不淡大家好!我是忠一表业,专注业内最好的品牌腕表,一个平心而论的腕表评测人。百达翡丽鹦鹉螺是1976年推出的腕表,当年那一句即可搭配潜水衣,又可搭配燕尾服的广告语让其火爆整个……
交易心理分析作者本人一生的交易经就浓马克道格拉斯可以说是本时代最好的交易心理导师之一,他的书籍《交易心理分析》至今依然是交易者的必读书单之一。这位大师致力于帮助交易者获得持续的盈利。他对交易心理有着诸多重要的观点……
遇见悠悠岁月阳春白日风在香。屋内,我正埋头苦干,为即将到来的期中考试做准备。桌上,一支支用尽的笔芯被太阳照出点点光芒。正当我在知识的海洋中遨游之际,一阵沉闷的敲门声传来。悠悠岁月,爱……
鼻子毛孔粗大怎么办收缩毛孔的方法鼻子两侧的毛孔是最容易扩张的,因为我们知道T区是人脸上最容易出油的部位,鼻子就位于T区,鼻子部位一旦出油,油脂就容易堵塞毛孔,形成黑头,从而使鼻子的毛孔变得粗大。那么有什么办法……
异地恋他还能这么对你真的是把你捧在手有多少人,在身边,却看不到对方的存在。有时候,爱一个人,距离不是问题。两个人并不害怕距离,但他们害怕两颗心之间的距离。据说,小小的告别总比新婚好。有时恋人会保持距离。当他们再次……