应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

看懂大数据生态完整体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  一、数据采集技术框架
  数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以下几种:Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:
  Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:
  Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:
  Flume、Logstash和FileBeat的技术选型如图2所示:
  Sqoop和Datax之间的技术选型如图3所示:
  Cannal和Maxwell之间的技术选型如图4所示:
  二、数据存储技术框架
  数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。三、分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  四、数据计算技术框架
  数据计算分为离线数据计算和实时数据计算。1。离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。2。实时数据计算
  业内最典型的实时数据计算场景是天猫双十一的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。Storm主要用于实现实时数据分布式计算。Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  他和Storm、Flink之间的区别见表4。
  Storm、Spark、Flink之间的技术选型如图6所示。
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。五、数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。
  表5Hive的执行效率一般,但是稳定性极高;Impala基于内存可以提供优秀的执行效率,但是稳定性一般;Kylin通过预计算可以提供PB级别数据毫秒级响应。
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。六、任务调度技术框架
  包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  它们之前的技术选型如图8所示。
  七、大数据底层基础技术框架
  大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。八、数据检索技术框架
  随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  九、大数据集群安装管理框架
  企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。HDP:全称是HortonworksDataPlatform。它由Hortonworks公司基于ApacheHadoop进行了封装,借助于Ambari工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。HDP属于开源版免费大数据平台,没有提供商业化服务;CDH:全称是ClouderaDistributionIncludingApacheHadoop。它由Cloudera公司基于ApacheHadoop进行了商业化,借助于ClouderaManager工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH属于商业化收费大数据平台,默认可以试用30天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;CDP:Cloudera公司在2018年10月份收购了Hortonworks,之后推出了新一代的大数据平台产品CDP(ClouderaDataCenter)。CDP的版本号延续了之前CDH的版本号。从7。0版本开始,CDP支持PrivateCloud(私有云)和HybridCloud(混合云)。CDP将HDP和CDH中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。
  以上内容出自于《大数据技术及架构图解实战派》一书。

传世手游开局自带灵兽丛林豹,画风复古玩法很独特兄弟们,今天要为大家带来一款独特的传世手游的实况,今天这么独特的传世手游你见过吗?开局自带一只灵兽丛林豹。骑着豹子去战斗打怪,还能施展超强合击技能,法师三段冲刺更是华丽无比,不……2消息,杨立瑜去国安能赚300万,吴兴涵遭双重处罚有关中超联赛的消息。现在中国足协正在仲裁多起合同纠纷,基本是中超球队欠薪的问题。3月5号是准入材料递交的截止日期,但仍有几支球队不符合规定。如果中国足协像包青天那样铁面无私,那……刘国梁为何特训王曼昱?世乒赛在即,应对伊藤美诚需做两手准备休斯顿世乒赛即将在11月24日开打,这两天国乒全队上下都在训练场馆中进行最后的备战,几位参赛队员都已经做好了准备,静候比赛的到来。本届世乒赛,国乒给予了高度重视,教练组和刘国梁……新能源大涨!把握主线投资机会先跟大家说个新闻:杭州市税务局通过大数据分析发现,朱宸慧、林珊珊二人于20192020年存在逃税行为,且金额巨大,对朱宸慧追缴税款、征收滞纳金并处以一倍罚款,合计6555……北京冬奥会中国队首金诞生!北京时间2月5日,北京2022年冬奥会短道速滑混合团体接力决赛在首都体育馆结束。由曲春雨、范可新、张雨婷、武大靖、任子威组成的中国队以2:37。348的成绩获得金牌,意大利队以……第2阶段开始之前,CBA主教练实力分档在竞技体育的赛场上,作为掌舵人的主教练对于球队的作用那可是举足轻重的,所以主教练的执教能力也是决定球队成绩的关键因素!在CBA的联赛当中,不同风格类型的主教练是层出不穷,……泰森准备7年的一场拳赛,暴怒KO霍姆斯,只因他挑衅背叛阿里拳击比赛作为最能刺激肾上激素和引起狂热情绪的运动之一,备受大众热爱,而拳击手们自然也被大家所崇拜。众多拳击高手中,拳王泰森和阿里,更是被大家所崇拜的对象,两人皆是收获拳击比赛中……能靠脸吃饭,偏要实力出众,耳机做这么好看,哈氪零度你图啥?这两天被女朋友嘲笑坏了!女朋友说我新买的蓝牙耳机,像个冰块一样,是嫌这次寒潮不够冷,东北的雪下得不够厚么?!我可是冤得很。这款HAKIIICE哈氪零度蓝牙耳机,就是……足协杯8强对阵出炉!武汉泰山打响对决,大连PK海港申花战深足足协杯第2轮战罢,上海申花、大连人、河南嵩山龙门、山东泰山、深圳队、武汉队、上海海港以及四川九牛挺进8场。接下来的14决赛将在大连赛区进行并采取双回合制,山东泰山与武汉队、上海……湖人不敌老鹰,下半场沃格尔弃用霍华德,结果内线被老鹰打爆湖人不敌老鹰,下半场沃格尔弃用霍华德,结果内线被老鹰打爆!湖人在比赛中以121129不敌老鹰,湖人一路领先,第三节结束,湖人还以101比91领先10分,如果湖人稳扎稳打,……电脑2022全球PC市场TOP5有你用的吗联想惠普戴尔均下滑昨日市场研究机构IDC发布了2022年Q4第四季度(1012月)和2022年112月整个全年的全球PC市场报告。首先是2022Q4第四季度(1012月)全球PC市场TOP……伍德3316波特23812火箭加时力克黄蜂!鲍尔三双NBA常规赛11月28日继续进行,最终,火箭以146143战胜黄蜂。首节开始,伍德上来接连得分帮助火箭157开局。鲍尔打成21追分,但是火箭又打出一波70继续扩大领先!马……
华为真的做到了,鸿蒙正式站稳脚跟一、导读随着科技技术的不断发展,芯片和系统愈发重要,尤其是进入5G时代之后,网络速度暴增,物联网终于迎来了新的发展时代,对芯片和系统的要求也与日俱增,为此全球各大科技巨头……正式服12。7更新7英雄调整黄忠传说级优化,黄刀流吕布已废在王者荣耀正式服12月7日的更新中,将对吕布、王昭君、后羿、狂铁、黄忠、娜可露露、金蝉七名英雄做出调整。吕布:黄刀流已废二技能不再造成伤害(无法触发黄刀)大招伤害:400……皮肤科的法宝维A酸乳膏到底有多万能?你知道吗?维A酸在皮肤科的临床应用被称为皮肤科治疗学的第三个里程碑,说得上是皮肤科医生的万能药。其中外用的维A酸乳膏,不仅成为多种皮肤病的一线用药,更成为众多爱美人士的手中之宝……中国韩国短道接连受挫,欧洲成最大赢家,中韩是时候联手打翻身仗2月13日晚,北京冬奥会短道速滑项目进入到第5个比赛日的决赛,先后决出了女子3000米接力和男子500米两个项目金牌。遗憾的是,在这两个中国曾经都夺过冠军的项目上,家门口之战,……网红牛爱芳回应假生风波发长文解释诸多质疑,诚恳道歉近几年来,社交平台中涌现出众多网红博主,他们凭借个人颜值、才华、拍段子等形式出圈,从而获得无数网友们的关注。成为网红有很多好处,不仅能够获得近乎与明星媲美的知名度,并且还……文案发朋友圈的签名句子,句句令人触动1、你不能忍受过去或未来,因为它们根本不存在。你所遭受的痛苦是你的记忆和想象。Youcannotsufferthepastorfuturebecausetheydonot……新式茶饮品牌茶里生产基地完成封顶,袋泡茶要玩瓶装茶,距离立顿快消八谈茶里茶1月10日,北京商报记者获悉,近日,广州茶里集团有限公司(以下简称茶里)自建的瓶装茶生产基地完成封顶,并预计将在2023年二季度正式投产。茶里成立于2013……动不动就闭口粉刺,可能是因为你我们皮脂腺分泌的油脂会从毛孔正常的代谢排出,但是当皮脂堵塞无法排除的时候,就会形成黄色的皮脂角栓堵塞在毛孔里,这样就形成了粉刺,那开放的粉刺角栓它外面的一头接触到了空气,……河南队主帅胆子太大了!34分钟就将两大首发换下,球队却因此获河南嵩山龙门在本轮中超跟广州城相遇,这场比赛对于球队来说,应该是必须拿下三分的较量。因为广州城整体实力非常差,而且是全华班出战。广州城在前三轮比赛中,已经毫无悬念的遭遇了三连败……时隔20个月,LPR首次下降!房地产至暗时刻已过,房贷还款额本文来源:时代周报作者:周梦梅19个月不变的贷款市场报价利率(LPR),终于迎来变化。12月20日,中国人民银行授权全国银行间同业拆借中心公布,1年期LPR下调5个……中国为亚太经济合作注入新动能来源:人民网人民日报海外版江苏省启东市通州湾位于一带一路倡议与长江经济带、长三角一体化发展等国家战略叠加交汇点,该湾新出海口吕四起步港区预计年底开港运营。图为十一月十六日……不懂规矩!费莱尼迫不及待要抢先捧起足协杯,陈戌源一把将他拽回1月9日消息,9日晚上举行的2021中国足协杯决赛中,山东泰山以10击败上海海港,夺得了本赛季中超、足协杯双冠王荣誉。赛后颁奖仪式上,山东队外援费莱尼迫不及待想去拿奖杯,被足协……
友情链接:中准网快好知易事利快百科快传网七猫云快生活中准网快软网聚热点文好找快好找