应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

看懂大数据生态完整体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  一、数据采集技术框架
  数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以下几种:Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:
  Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:
  Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:
  Flume、Logstash和FileBeat的技术选型如图2所示:
  Sqoop和Datax之间的技术选型如图3所示:
  Cannal和Maxwell之间的技术选型如图4所示:
  二、数据存储技术框架
  数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。三、分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  四、数据计算技术框架
  数据计算分为离线数据计算和实时数据计算。1。离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。2。实时数据计算
  业内最典型的实时数据计算场景是天猫双十一的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。Storm主要用于实现实时数据分布式计算。Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  他和Storm、Flink之间的区别见表4。
  Storm、Spark、Flink之间的技术选型如图6所示。
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。五、数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。
  表5Hive的执行效率一般,但是稳定性极高;Impala基于内存可以提供优秀的执行效率,但是稳定性一般;Kylin通过预计算可以提供PB级别数据毫秒级响应。
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。六、任务调度技术框架
  包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  它们之前的技术选型如图8所示。
  七、大数据底层基础技术框架
  大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。八、数据检索技术框架
  随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  九、大数据集群安装管理框架
  企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。HDP:全称是HortonworksDataPlatform。它由Hortonworks公司基于ApacheHadoop进行了封装,借助于Ambari工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。HDP属于开源版免费大数据平台,没有提供商业化服务;CDH:全称是ClouderaDistributionIncludingApacheHadoop。它由Cloudera公司基于ApacheHadoop进行了商业化,借助于ClouderaManager工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH属于商业化收费大数据平台,默认可以试用30天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;CDP:Cloudera公司在2018年10月份收购了Hortonworks,之后推出了新一代的大数据平台产品CDP(ClouderaDataCenter)。CDP的版本号延续了之前CDH的版本号。从7。0版本开始,CDP支持PrivateCloud(私有云)和HybridCloud(混合云)。CDP将HDP和CDH中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。
  以上内容出自于《大数据技术及架构图解实战派》一书。

未来HomePod或加入3D手势和FaceID功能根据最近发布的苹果专利申请可知,未来版本的HomePod可能会支持3D手势、FaceID等新功能。虽然专利申请中并未指明这就是HomePod,但确实是在描述一款语音控制的……边吃饭边喝水可能会影响消化?专家控量而食许多人习惯于吃饭时用水或汤送饭,但是网上有说法称这种习惯可能会影响消化。北京协和医院消化内科主任医师李景南表示:这个说法是真的。消化功能主要靠胃液,胃液里有胃酸,这是最初……佳能轻量级全幅无反相机EOSRP规格曝光距离佳能全幅无反相机EOSR推出没多久,佳能又将推出一款新的全幅无反相机EOSRP,日本媒体Nokishita今日曝光了佳能EOSRP的一系列外观泄露照及规格,可以看出EOSR……2022年发布的第一款机子realmeGT2ampampgtGT2:骁龙888处理器,金刚石冰芯散热系统,120hz三星E4基材直屏,5000mAh65w充电组合,X轴线性马达,杜比全景声扬声器,索尼IMX766主摄,OISEIS双防抖……体验为王!简析联想拯救者Y90电竞手机ZUI13系统近日,全新一代游戏旗舰手机,联想拯救者Y90电竞手机正式发布,预约到手价3999元起,将于3月10日正式首销。拯救者Y90电竞手机硬件拉满,采用高通全新一代骁龙8处理器,6。9……LogitechG推出四款新的游戏耳机今天,罗技宣布推出四款全新的游戏耳机,这些耳机将全部在其LogitechG系列外设品牌下推出。这些耳机中的两个针对的是吃鸡好者,而其他两个更加照顾RGB爱好者。这四款产品还涵盖……图三星GalaxySport智能手表渲染图现身三星正在开发一款新的以健身为导向的智能手表,与三星GalaxyS10一同推出。该设备的细节在过去的几个月里一直在泄漏,而这款可穿戴设备的渲染图今天首次出现。这款以运动为导向的智……Anker品牌的Lightning至USBC线缆开启预购不久之前,苹果开放了MFi认证项目,允许第三方厂商生产Lightning至USBC线缆。现在,配件厂商Anker宣布,Lightning至USBC线缆已经开启预购,本月晚些时候……铁矿石战争升级,四大反击策略,助力中国赢下定价战当今的国际局势,虽说有硝烟的战争比较少会在大国之间发生,毕竟各国的武器都已经到了十分发达的程度,稍有摩擦便会引发整个人类极其严重的灾难。但是,在表面的和平之下,国与国之间……唐煎茶,宋点茶,明瀹茶,户户饮茶,四般闲事,你都知道哪些?文编辑向日葵风车(旅行与茶)前一篇介绍【神农尝百草;周、秦汉时期武阳买茶;三国两晋南北朝江南初次饮茶;】的茶发展时期。到了隋唐,两宋茶叶的发展到了鼎盛时期,从帝王到平民,……分析苹果以成本价卖AppleTV4K亏本卖HomePod据美国科技媒体AppleInsider报道,知名博主约翰middot;格拉伯(JohnGruber)本周讨论了苹果的硬件定价策略,以及苹果在开拓服务业务方面的努力。他表示,苹果……国足归国后再引热议,名宿以后夹起尾巴做事中国男足和中国U23男足已在昨天晚上抵达海口,未来将进行147的隔离措施。在12强赛最后一战兵败马斯喀特后,关于国足的未来就一直成为争论的焦点。此次回国后,国内媒体和从业……
宝藏食物玉米,可惜很多人把精华给丢了!玉米是餐桌上常见的一种粗粮,不管是直接蒸煮,还是炖汤、炒菜都很美味。而且,德国营养保健协会有一项研究表明,在所有主食中,玉米的营养价值和保健作用是最高的。因此,玉米也有长寿食品……星空有约这个流星雨即将光临地球,它有哈雷彗星血统海报制作:冯娟天文科普专家介绍,拥有哈雷彗星血统的宝瓶座流星雨5月6日极大,极大时ZHR(在理想观测条件下,辐射点位于头顶正上方时,每小时能看到的流星数量)为50左右,喜……试图改变社交媒体?马斯克推特发民调需要编辑按钮吗?特斯拉(1145。45,60。86,5。61)CEO埃隆马斯克在收购推特(49。97,10。66,27。12)股份后又向他的8000多万粉丝发起了一次民调:我们需要一个编辑按钮……官宣!2年1450万,米尔斯正式续约!篮网兵强马壮,KD留队伴随着罗伊斯奥尼尔TJ沃伦萨姆纳相继加盟球队,布鲁克林篮网队在今夏休赛期的自由市场当中,确实有所斩获,并且提升了阵容实力和深度。然而尽管如此,在杜兰特提出交易申请,欧文又……快来新宇宙带您了解世界移动通信大会上的5G技术与元宇宙2022世界移动通信大会于西班牙巴塞罗那会展中心圆满举办,大会以连接无限可能为主题。作为全球移动通信行业风向标的盛会展示了5G连接、AI演进、云网络、金融科技、万物互联等新兴科……平台不能给李鬼APP开后门北京日报客户端评论员郑宇飞近日,国家网信办公布了一大批投资诈骗平台。从名单来看,京东金融、马上金融、360借条等时下热门的网贷平台几乎都被李鬼缠身,个别平台的仿冒者竟多达……敢和外援飚进球!30岁中超土炮上演单场梅开二度,终结能力不差相信在不少球迷的认知里,中国足球都是落后的代表。因为国字号成绩不好,甚至在12强赛这种比赛中都能输给越南,所以大家就笃定了中国足球就是落后,而中国球员就是落后的代表。不过这些中……小暑将至,别忘了给家人吃暑期5宝,全家人轻松入伏顺利过夏小暑将至,别忘了给家人吃暑期5宝,全家人轻松入伏、顺利过夏!马上就要小暑节气了,小暑是二十四节气之一,也是夏季的第五个节气,小薯的到来,表示夏季时节的正式开始。但是小暑为……张常宁回门宴满满中国风,中国女排第二任队长孙晋芳上演摸脸杀张常宁与吴冠希的篮排恋修成正果可谓体坛的一大盛事!大婚当日排场满满,各路嘉宾频频道喜,张常宁的归宁回门宴也是高朋满座,喜庆的中国风元素将欢沁盈满每个角落,也成为了江苏排球圈的大……我和小红宝宝的旅行记2021年最难忘的自驾游就车友会组织的一次自驾游活动。今年一国庆,我爱人开上今年新买的爱车第代帝豪,从银川上速车友们在吴忠服务区集合,然后走速,按导航到达目的青海湖……晒明道对女儿骂脏话后反被嘲,她被迫道歉却还茶里茶气?此文为【高能E蓓子】原创,禁止任何形式的转载,转载请后台联系,但欢迎你们转发到朋友圈。不知道大家这两天有没有被明道发脾气事件刷屏?20日时,网上传出一条明道在拍摄期……湖人该留下施罗德?留下他是不值施罗德与湖人队的合同,即将到期了。湖人队为他开出了2年4000万的合同,并向他下了最后通牒。没有想到的是施罗德居然拒绝了这份合同,他想要一份2年5000万的合同。其实对于像他这……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网