应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

大数据和人工智能从机械思维到统计思维

  今天准备写一篇文章来谈大数据,人工智能和事物认知问题解决之间的关系逻辑。因此这篇文章不会谈底层的实现技术,而更多的会谈在整个信息技术革命下思维逻辑的发展演进过程,并对相互之间的关系做进一步思考。大数据概念和其发展
  大数据这个概念在5,6年相当火,而最近几年整体热度下降得很明显,类似的又出现了数据湖,数据中台这些概念。但是数据中台和数据湖,却很难体现出大数据的一些关键特征。
  比如我们谈大数据核心,一般都会谈到其4V特征。数据量足够大,PB级别以上
  数据类型多样化,结构化,非结构化
  时效性要求高
  价值创造,大数据最终实现价值
  前面几年大数据应用更多的是在做数据采集,集成,存储方面的事情,但是对数据本身的应用和分析却很少。大数据应用和分析做得好的可以看到重要是在电商行业,或者类似电信,金融等直接面对客户的大集团行业,应用的点也更多在针对性营销,推荐引擎,客户画像等方面。也就是说理想的应用场景很多,但是大量落地场景并不多。
  很多企业建大数据平台,投入大量资源,时间和成本,虽然完成了统一的数据采集和存储,但是数据本身产生的价值并没有体现出来。
  类似当前数据中台,实际也在谈一点,大数据平台不能是只做OLAP分析,做分析决策,更多的要考虑数据能力实时开放,反哺业务,为业务服务。
  当你构建了大数据平台后,你会看到后续的数据运维,数据管控治理,数据分析均需要持续大量的人员投入,如果数据本身无法产生价值,那么平台最终被荒废掉也是合理之选。
  大数据和传统BI
  对于大部分企业来说,企业信息化发展本身也有一个过程。
  其前期的数据分析更多的还是围绕结构化数据展开,这些数据采集集中后上PB级并不容易,同时也全部是结构化数据,这个时候传统的BI系统构建思路仍然适用,唯一的就是数据量大后你可能需要转到类似MPP分布式的数据分析库上来解决性能问题。
  如果你完全采用类似Hadoop来构建大数据技术平台来解决上面这些问题,那么实际上完全没有必要,你会发现会引入更多的技术复杂度和业务建模复杂度。
  为什么这样讲?
  对于传统BI分析里面的维度分析,上钻下钻,切片等基于维度建模型形成的分析能力,在Hadoop存储和处理中并不合适。Hadoop在数据存储扩展,分析SQL运行效率上有明显提升,但是很多BI里面并不需要实时查询或即席查询能力。
  也就是说企业如果没有这种数据实时分析结果反哺业务的需求,那么你更加没有必要马上去搭建这种大数据平台来解决你的问题。
  相关性和因果关系
  早期,《大数据时代》这本书可以说相当的活,作者在书中提出的大数据三原则:要全体不要抽样,要效率不要绝对精确,要相关不要因果。再次提到了大数据更加关注数据之间的相关性而非因果逻辑。
  也就是大家熟知的啤酒和尿片的故事。这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,啤酒与尿布两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。
  如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是啤酒与尿布故事的由来。
  认知逻辑从机械思维到信息论
  当今天重新回顾这个案例的时候,实际本身就是我们认知世界的方式在发生大的变化。
  我们传统思考方式就是机械思维,其中牛顿之一个很大的贡献值,简单来说就是自然界发生的各自现象事件,一定有其内在的规律和原因,同时这个原因我们可以用抽象的公式或模型来进行表达。
  那么当我们遇到同样的现象的时候,就可以用公式去解题。
  但是机械思维发展中出现两个问题,即有些时候我们没有办法做到精确建模,这本身又有两个原因,其一是对目标Y造成影响的X因子太多,无法穷举和认知全;其二是我们的测量系统出现问题,简单来说采集不全和测量不准。这些都对我们的确定性思维造成挑战。
  解决该问题本身又有两种思路:其一是概率和统计
  其二是对信息不确定性的量化表达信息论和信息熵(香农)
  而信息论则完全相反,建立在不确定性(假设)基础上,要消息不确定性就必须引入信息。于是我们的思维逻辑发生了进一步变化,即从机械思维到大数据思维的转变。
  复杂时间很难找到确定性和因果关系》因此用不确定性眼光看待世界》把智能问题转化为消除不确定性的问题》找到消除相应不确定性的信息(或者说大量具有相关性的数据可以帮助我们消除这种不确定性)。
  例如上面大数据的例子。
  我们通过数据的相关分析,找到了啤酒与尿布搭配售卖的方法,但是我们并不清楚为何年轻父亲会在购买尿片的时候顺带几瓶啤酒。
  在大数据时代,我们会产生一个错觉,因果关系不再重要,重要的是大数据相关性分析。我们还是回到上面的例子来假设下可能的因果关系。
  比如最多的调查结果可能是年轻父亲购买尿片后,小孩换了新尿片可以快速地入睡,年轻父亲这个时候才能够有空闲时间进行消遣,能够产生空闲时间消遣才是推动啤酒购买的关键原因。
  当你了解清楚因果关系后,你会发现年轻的父亲消遣的方式不只是喝啤酒,在家里看电影或球赛,打游戏,抽烟都可能是潜在的消遣方式。实际上你把香烟,口香糖,游戏卡等和尿布放在一起也能够达到同样的畅销结果。
  简单总结一句重要的话就是:
  一件事情你只是理解相关性那么只能是迎合或跟随,而只有理解了相关性后面的因果关系你才可能破局或引领变革。人工智能和大数据
  人工智能,简单来说就是计算机要模拟人的大脑来思考和解决问题。
  可以看下百度百科对人工智能的一些说明人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。
  人工智能涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。
  从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。
  计算机具备了人的智能能力。那么人的智能能力包括了识别,定义,归纳,抽象,推理,决策等多个方面的能力。
  前面已经讲到了思考解决问题的一种方式:
  即问题输入》已有的算法模型》问题解决
  在很早以前的人工智能研究里面,更多的就是想着去模仿人脑思考和推理的过程。通过提供不同的输入方式让计算机进行学习,产生一个算法模型。然后对于新问题可以用模型去解决。类似人工神经网络,遗传算法等都是这个思路。但是当你提供的输入不足够多的时候,这个模型很难快速地收敛,也很难得出一个精确化的确定模型。
  在大数据出现后,形成了计算机解决问题的新思路。
  深度学习大数据人工智能
  即从传统学习和建模推理思路转移到基于统计学的思路,这个李开复确实在里面做出了不小的贡献。其次就是在统计学基础上引入了深度学习的概念,而深度学习又依赖于海量大数据作为样本输入。
  在李开复的《人工智能》一本书里面就谈到深度学习大数据引领了第三次AI浪潮。简单来说就是你不需要去搞清楚人工神经网络这个精确模型是如何形成的?你只需要通过大量的样本输入去训练这个模型,最终得到你需要的输出。
  简单来说一个计算机能够识别一只动物图片是猫,并不是计算机能够精确地描述出来猫应该具备的体型特征,而是图片中的动物的特征矩阵和数据库里面的动物猫最匹配而已。
  对于谷歌的阿拉法狗战胜李世石在17年也引起了轰动,再次展示了深度学习算法和人工智能的威力。对于人工智能来讲,计算机本身的CPU并行计算能力远超人脑,主要有了合适的深度学习方法,计算机程序所发挥出来的人工智能威力巨大。
  也就是说在大数据时代推动了人工智能的快速发展。
  什么才是真正的智能?
  当我们做IT系统或应用的时候,必须要搞清楚什么才是真正的智能或智慧。
  计算机在解决问题的时候,实际上最简单的就是类似公式计算或求解,这个可以发挥计算机的强大算力,完胜人类。
  其次就是基于固有场景下制定规则的模式匹配。
  我们可以举一个智慧家庭里面的例子来作为参考。
  当进门监控到是男主人回来的时候,自动将空调温度设置到24度并打开窗帘。当监控到是女主人回来的时候,将空调设置到26度,并关闭窗帘。
  这个就是典型的基于场景的规则设置并执行操作。
  这种情况下计算机的能力是在类似人脸识别,语音识别方面,而不是在最终的决策执行上面。因为决策完全是基于预设的规则执行。
  而真正的人工智能应该是基于大量的数据采集和分析,自己形成了规则,并且后续基于规则进行执行相关操作。并不断基于新数据的输入不断地调整和优化自己的规则。
  类似完全意义上的自动驾驶,就是典型的人工智能要攻克的场景,也就是说非固有模式,非提前给定规则下快速的解决问题并做出判断。
  要做到这点,你必须有大量的数据采集并进行快速的分析。没有大数据底层技术,海量大数据的输入,是无法做到智能的。包括前面的AlphGo,如果没有大量的历史棋谱的输入和训练,电脑也是无法战胜人类的。
  电脑基于算力,采用统计学的思路找到了机器智能化的新途径。
  但是正如我前面谈到的,如果电脑并没有理解清楚因果关系,那么电脑就只能处于跟随状态而非引领状态。类似围棋也是一个道理,如果我们修改了围棋的一些规则,同时不给AlphGo新的输入训练,那么电脑同样变成白痴。
  人为何能够战胜电脑,里面有一个重点就是不要放弃对因果和本源的探索。信息化数字化智能化
  在谈数字化转型的时候,实际上一直在谈三个关键点:连接:万物互联,解决人和人,人和物,物和物的连接问题
  数据:连接后产生集成和协同,协同过程自然会产生数据
  智能:数据经过加工和提炼,形成智能化分析应用
  对于连接你可以看到首先是解决了最基本的业务协同问题。但是连接更加重要的作用是产生和沉淀数据。
  传统的连接更多的都是通过人来完成,通过人手工录入电子表单等数据来完成。而在数字化阶段必须解决连接的多样性问题,数据产生多样性问题,类似采用各种物联网传感设备,你会看到可以持续不断,自动化的产生大量你需要的输入。或者通过开会语音的记录,视频记录同样产生更多你原来没有关注的数据。
  数据本身在万物互联阶段才形成了数量和类型的巨大变化,产生了大数据。
  在数字化时代必须又重提大数据。
  这个大数据的积累需要产生两个方面的作用,一个是直接应用到业务协同中,一个是真正提升智能化和智慧化的能力。当前大部分企业仍然在第一阶段,而要完全意义上的人工智能仍然在探索。
  对于企业信息化领域同样适用我前面的说法,即计算机能够自动产生规则并应用规则,才是完整意义上的人工智能。否则计算机只是既定规则的执行者而已。包括我们常说的大数据推荐引擎,是计算机基于已有的推荐算法进行推荐,而不是大数据自己形成了推荐算法,这才是关键的区别点。
  类似我原来在智慧交通上举的一个例子:
  现在的智慧交通应用往往已经能够很方面地进行整个大城市环境下的交通状况监控并发布相应的道路状况信息。在GPS导航中往往也可以实时地看到相应的拥堵路况等信息,从而方便驾驶者选择新的路线。但是这仍然是一种事后分析和处理的机制,一个好的智能导航和交通流诱导系统一定是基于大量的实时数据分析为每个车辆给出最好的导航路线,而不是在事后进行处理。对于智能交通中的交通流分配和诱导等模型很复杂,而且面对大量的实时数据采集,根据模型进行实时分分析和计算,给出有价值的结果,这个在原有的信息技术下确实很难解决。
  所以要做到完全的智能化或智慧化并不是一件容易的事情。
  真正的智慧一定是面对新事物都能够自我学习,自我适应调整,自我优化的。而不是基于预设的规则。只要规则是人在预设,只要我们还始终保持对事物因果关系和本源的探索,那么在短期计算机就不可能做到完全替代人类。
  模型的建立还是人,但是应用模型或规则,基于采集集成的大数据进行快速的分析决策是机器的强项,这才是是数字化转型第一阶段重点去解决的智能化问题。

内心朋友上线Steam一款地狱边境类佳作近日,一款新的仿《地狱边境》类游戏佳作《内心朋友(TheInnerFriend)》正式上线Steam平台,该游戏将于2018正式发售,有兴趣的朋友不妨关注下。在《内心朋友……关于肿瘤,中医有话说近些年,癌症的发病率呈上升趋势,且趋向年轻化。对于恶性肿瘤的治疗,大家的反应都是手术切除、放化疗这些西医方法,那中医是不是对肿瘤束手无策毫无办法呢?其实,现在对肿瘤的治疗……黄多多为何被许多家长喜欢?黄磊透露了这一点现在小学一年级的作业,已经难倒了一批孩子,连不少家长都束手无策。昨天萱萱妈愁眉苦脸跟我吐槽:语文老师给孩子布置看图写话画太阳作业,春天画什么太阳?夏天画什么太阳?萱萱毫无……学生必背的历朝历代名篇名句400句,建议打印早读背诵1hr先秦名言《诗经》1。关关雎鸠,在河之洲;窈窕淑女,君子好逑。2。昔我往矣,杨柳依依;今我来思,雨雪霏霏。3。投我以木桃,报之以琼瑶。4。他山……谷歌向第三方app开放PixelVisualCore拍照优化在Pixel2系列智能手机上,Google其实隐藏了一颗ldquo;PixelVisualCorerdquo;影像处理芯片。不过现在,其机器学习成像优化算法已经向第三方app开……符文守卫策略卡牌游戏上线卡牌游戏佳作近日,一款免费竞争策略卡牌游戏佳作《符文守卫:策略卡牌游戏(Runewards:StrategyCardGame)》正式上线Steam平台,该游戏将于2月发售,有兴趣的朋友不妨……最终幻想15Windows版将支持CrossPlay《最终幻想15》Windows版还有一个月就发售了,这里有一个给PC玩家的好消息,那就是游戏发售以后,他们可以在PC上与自己的XboxOne好友一起玩这款游戏了。根据微软……爸爸的陪伴,对孩子的早期能力培养至关重要在家庭中,一般照顾孩子的都是妈妈,而爸爸,对此便疏忽了一些。而事实上,爸爸的陪伴,才是对孩子早期能力培养的关键因素:一、培养孩子的责任心爸爸是家里的顶梁柱,在……职场准妈妈在生活中应注意什么?从怀孕到分娩再到抚育宝宝是一个艰辛的过程,妈妈整日围着宝宝转,不得已要做出取舍,甚至于放弃自己的工作,退出原来的圈子。直到孩子上幼儿园,妈妈才能腾出一部分属于自己的时间,……狂卖10W辐射4VR成为Steam上最畅销VR游戏B社出品必属精品,这句话真的不是饭团君吹的,这是靠游戏一份一份卖出来积攒的。去年年底,Bethesda连续上架三款重磅VR游戏新作,分别是《毁灭战士VFR》、《上古卷轴5:天际……魔兽世界官方怀旧服是否使用老版画面取决于玩家在被问到怀旧服是会用原版游戏的画面,还是会用新版资料片中的画面时,Brack称这一切都将由玩家们来决定。图右为Brack记者:我们来谈谈一些更重要的决定吧,而这些可……英国实体游戏零售榜出炉怪物猎人世界再次夺冠英国最新一周实体游戏零售榜出炉,《怪物猎人:世界》延续了火热的发售后状态再次夺冠。格斗游戏《龙珠战士Z》则跌落到了第六名。上周发售的新作,《EASportsUFC3》和S……
教育今日资讯今年能实现,普惠性幼儿园覆盖率达到80的目标慧聪希沃教育今日早报,2020年12月14日(倒计时18天),星期一,农历十月三十【教育政策】教育部:今年能实现普惠性幼儿园覆盖率达到80的目标。教育部明确:……孩子的成功教育,从培养好的习惯开始好习惯能够影响一个人的一生。特别是孩子在早期教育阶段,父母给孩子播下好习惯的种子,孩子才能在后天的发展中得以收获。在06岁的幼儿阶段,孩子的可塑性是最大的,父母的培养责任……二胎宝贝的日记本曝光,详细记录姐姐的罪行,原来也是记仇本在之前,由于我国的出生率越来越低,我国也出台了相关的开放二胎政策。也有很多的家长选择了再生一个宝贝,想让两个孩子一起作伴长大。长大了也可以一起上学,一起玩耍,但是其实两个孩子的……Steam一周销量排行榜绝地求生大逃杀四十连冠Steam平台公布了最近一周(12月11号到12月17号)的销售排名,《绝地求生:大逃杀》成功四十连冠,《GTA5》紧随其后位居榜单第二。Steam一周销量排行榜:……iOS11小问题多用户不愿升级苹果如此回应今年的iOS11让人格外不省心,系统小问题特别多,以至于严重影响了正常的使用需求,而苹果也是疲于应付,用小更新来解决,所以我们看到每周一更的场景,这是以往iOS上见不到的。……你认为新生儿在几个月的时候最难带?为什么?宝宝几个月最难带?没经历过的人肯定不会明白带孩子这件看似简单的事情实际上有多难。作为二孩宝妈,我个人感觉宝宝在这几个月的时候最难带。01月龄怀胎十月,一朝分娩,面对……少年用XboxOne换毛毯送流浪汉结局很感人据FOX8报道,美国9岁男孩MikahFrye的圣诞心愿是一台XboxOne,但Frye却临时更改了。在信中,Frye决定将XB1主机换为60张毛毯,免费送给那些无家可归……绝地求生来了新增回放记录角色周围1公里范围12月20日,《绝地求生》将正式迎来PC1。0正式版。近日,官方对测试服进行了第三轮更新,新增回放功能,可记录玩家角色周围1公里范围内的内容,在大厅中查看自己究竟是怎么被杀的或……亚洲第一美少女入手Switch尖叫要玩一整天还记得韩国Afreeca女主播阿英吗?这位以性感舞姿、火辣身材走红韩国,号称ldquo;亚洲第一美少女rdquo;的女主播,去年在中国直播了一年,回国后就买了辆保时捷。近……QQ投票电竞算不算不务正业惹争议腾讯致歉近日,腾讯QQ发起一项投票引发争议,差点儿挑起Dota和LOL的战争。在投票《打电竞到底算不算不务正业》中,QQ提供了两个选项:左边是ldquo;电子竞技是可以为国……他首周掉肉6。8斤,腰围小了13cm,挑战赛周冠瘦身如此简单从3月20日吹响号角,全网公益挑战赛第一周,参赛者都每天满怀欣喜的按时称体重,有人欢喜有人愁,那么截止3月29日早上的体重,大家第一周的战果如何呢?小芊带你一探究竟!不少……给文化人下套最狠的科学家,曾用一篇诈文扭转文理地位1996年,时任纽约大学物理学教授的艾伦索卡尔(AlanSokal)向著名的文化研究杂志《社会文本》(SocialText)投稿了一篇文章。这篇文章的名字很长,叫《跨越界……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网